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图 3-6 树叶 放大 的 颗粒 效果 图 3-9 ”随机 产生 若干 像素 点 








图 3-10 图 像 变 暗 图 3-11 图 像 变 亮 





图 3-12 图 像 日 落 效果 
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图 3-13 负片 和 水 印 效果 








图 8-4 神经 网 络 分 类 


Gradient Descent Algorithm 





图 8-6 ”误差 曲面 及 梯度 下 降 
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Fd 8-7 落 到 局 部 最 小 点 的 梯度 下 降 
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图 10-5 ” 弱 噪 声 切 片 识别 效果 图 





图 10-6 强 品 声 图 像 





图 10-7 强 噪声 切片 识别 效果 图 
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在 2013 年 的 中 国 大 数据 创新 峰会 上 ， 我 偶然 结识 了 作者 ， 期 间 聊 到 了 人 工 智 能 革命 和 机 
器 学 习 的 话题 ， 被 作者 的 渊博 知识 所 折服 ， 慢 慢 地 结 下 了 深厚 的 友谊 。 时 间 一 晃 而 过 ， 机 需 
学 习 现 在 已 经 得 到 了 井喷 式 发 展 ， 按 照 麻 省 理工 学 院 罗 德 尼 。 布 鲁 克 斯 的 预测 : 到 2100 年 以 
前 ， 我 们 的 日 常生 活 中 将 充满 智能 机 器 人 ， 而 且 人 类 无 法 将 自己 同 它 们 区 分 开 来 ,我们 也 将 
是 机 器 人 ， 同 机 器 人 互相 联系 。 

追忆 2011 年 ， 当 时 我 在 吉林 大 学 读 研 三 ， 幸 运 地 拿 到 了 百度 研发 工程 师 的 offer， 进 入 百 
度 商 务 搜索 架构 部 ， 一 直 做 着 与 凤梨 广告 相关 的 工作 。 现 代 广 告 业 的 奠基 人 大 卫 ， 奥 格 威 曾 
经 说 过 ， 除 非 你 的 广告 建立 在 伟大 的 创意 之 上 ， 否 则 它 就 像 夜 航 的 船 ， 不 为 人 所 注意 。 广 告 
的 创意 是 广告 的 灵魂 ， 我 也 一 直 沿 着 广告 内 容 技 术 的 方向 ， 优 化 创意 ， 提 升 用 户 的 体验 ， 提 
升 广 告 主 的 转化 。 在 这 个 方向 上 ， 我 采用 了 机 器 学 习 的 相关 技术 ， 取 得 了 毕 异 (获得 2014 年 
度 百 度 最 高 奖 )、 图 片 凤 梨 、 知 识 凤 策 、 地 域 识 别 等 项 目的 成 功 ， 深 刻 地 体会 到 了 机 器 学 习 的 
强大 ， 正 是 有 了 机 器 学 习 的 闪闪 发 光 ， 才 推动 了 很 多 令 人 惊艳 的 产品 的 诞生 。 对 于 互联 网 、 
IT 从 业 人 员 ， 机 器 学 习 已 经 成 为 必 备 利器 ， 和 掌握 了 它 ， 就 等 于 站 在 了 巨人 的 肩膀 上 工作 ， 可 
帮助 自己 提高 个 人 的 核心 竞争 力 。 

我 和 作者 认识 近 3 年 ， 同 时 也 是 《机 器 学 习 实践 指南 》 第 1 版 的 读者 ， 并 在 工作 之 余 与 
作者 一 起 管理 《机 器 学 习 实践 指南 》 的 读者 QQ TÉ ( 群 号 : 192029861 )， 在 群 里 认识 了 更 多 专 
注 机 器 学 习 的 朋友 和 学 者 -《 机 器 学 习 实践 指南 》 第 1 版 主要 针对 初 、 中 级 读者 ， 作 者 出 书 的 
目标 就 是 : 以 机 器 学 习 算 法 的 实践 应 用 为 主 ， 将 更 多 的 “门外汉 ” 带 人 机 器 学 习 砍 堂 ， 让 更 
多 拥有 机 器 学 习 理 论 却 无 法 下 手 的 朋友 掌握 机 器 学 习 实践 思维 ， 轻 松 步 人 机 器 学 习 实战 领域 。 
实践 思维 对 IT 行业 非常 重要 ， 一 旦 形成 了 适当 的 思维 方式 ， 很 多 工作 中 遇 到 的 技术 难题 将 迎 
刃 而 解 ， 学 习 新 知识 的 速度 也 更 快 ， 因 为 只 有 实践 与 理论 相 结合 才能 更 精准 地 理解 知识 。 也 
希望 对 机 器 学 习 有 兴趣 的 读者 能 从 中 受益 。 
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《机 器 学 习 实 践 指南 》 第 2 版 出 版 在 即 ， 我 高 兴 地 接受 了 作者 的 邀请 一 一 为 本 书写 推荐 序 。 
第 2 版 比 第 1 版 增加 了 更 多 的 案例 和 算法 解析 ， 全 书 详细 介绍 了 机 器 学 习 发 展 及 应 用 前 景 、 
科学 计算 平台 、Python 计算 平台 应 用 、R 语言 计算 平台 应 用 、 生 产 环境 基础 、 统 计 分 析 基 础 、 
描述 性 分 析 案 例 、 假 设 检验 与 回归 模型 案例 、 神 经 网 络 、 统 计算 法 、 欧 氏 距 离 与 余弦 相似 度 、 
SVM、 回 归 算 法 、PCA 降 维 、 关 联 规则 、 聚 类 与 分 类 算法 、 数 据 拟 合 案例 、 图 像 算 法 案例 、 
机 器 视觉 案例 、 文 本 分 类 案例 等 机 器 学 习 实 践 与 应 用 。 

第 2 版 致力 推动 机 器 学 习 理 论 在 国内 的 普及 和 应 用 ， 为 公司 创建 更 多 的 商业 价值 ;同时 ， 
力争 让 更 多 的 学 生 、IT 工程 师 等 进入 人 工 智能 相关 领域 ， 适 应 智能 时 代 工 作 的 需要 。 

最 后 ,希望 大 家 喜欢 这 本 书 ， 进 而 从 中 受益 。 


徐 培 治 


百度 在 线 网 络 技术 (北京 ) 有 限 公 司 
2016 年 3 月 于 北京 
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为 什么 要 写 这 本 书 

随 着 全 球 第 三 次 工业 革命 的 迅猛 发 展 ， 机 器 学 习 技 术 异 军 突起 ， 人 类 对 机 器 学 习 技 术 的 
研究 也 开辟 出 了 许多 全 新 的 应 用 领域 ， 这 使 智能 机 器 的 计算 能 力 和 可 定制 性 上 升 到 了 一 个 新 
的 层次 。 到 了 2015 年 ， 人 类 在 机 器 学 习 领 域 取得 了 一 系列 重大 的 突破 ， 这 项 技术 已 悄 无 声息 
地 潜入 我 们 的 日 常生 活 ， 而 在 未 来 ， 机 器 学 习 也 将 拥抱 变化 ， 持 续 发 力 。 如 今 ， 它 已 经 在 各 
行 各 业 的 技术 革新 中 扮演 着 日 益 重 要 的 角色 ， 从 各 方面 影响 和 改变 着 我 们 的 生活 。 

近年 来 ， 机 器 学 习 技术 在 国外 得 到 了 海量 应 用 和 深入 发 展 。2015 年 11 月 ,谷歌 开源 了 
全 新 的 TensorFlow 机 器 学 习 系统 ， 该 系统 更 快 、 更 智能 ， 也 更 具有 弹性 。2015 年 1 月 ， 机 天 
学 习 平 台 GraphLab 改名 为 Dato， 并 获得 了 1850 万 美元 的 新 融资 (投资 方 为 Vulcan Capital 、 
Opus Capital , New Enterprise Associates, Madrona Venture Group )， 此 前 他 们 曾 获 得 680 万 美 
元 的 融资 。2015 年 8 H, Facebook Hih T “M”, Facebook 认为 人 类 不 仅 会 回答 人 工 智能 所 
不 能 回答 的 问题 ， 而 且 从 长 远 来 看 ， 人 类 也 会 帮助 改善 人 工 智 能 技术 ,“M” 除 了 能 做 到 回 
答 问 题 、 查 阅 信息 等 基本 功能 外 ， 还 可 以 帮助 用 户 完 成 如 购买 商品 、 餐 厅 定 位 、 安 排 旅行 计 
划 等 操作 。 在 2015 年 12 月 召开 的 “2015 年 神经 信息 处 理 系 统 ”( NIPS) 会 议 上 ， 微 软 研究 人 
员 和 工程 师 公 开 了 20 多 篇 机 器 学 习 最 新 研究 成 果 的 论文 。 此 外 ， 微 软 还 宣布 ， 机 器 学 习 正 在 
成 为 Windows 10 的 一 部 分 : Skype 翻译 可 以 将 口语 几乎 实时 地 翻译 成 其 他 语言 ， 就 像 《星际 
迷航 》 中 的 通用 翻译 器 那样 ， 可 以 做 到 面对面 的 交流 。Cortana 个 人 数字 助理 在 与 用 户 的 互动 
中 不 断 学 习 与 改进 ， 从 而 帮助 用 户 管理 日 历 、 跟 踪 快 递 ， 甚 至 能 与 用 户 聊天 和 讲 筑 话 ， 实 现 
真正 的 个 性 化 互动 体验 。Clutter 是 微软 Office 2016 的 成 员 ， 通 过 学 习 它 可 以 识别 出 哪些 电子 
邮件 对 用 户 来 说 最 重要 ， 并 自动 将 不 重要 的 邮件 重 定向 到 一 个 单独 的 文件 夹 中 ， 从 而 保持 用 
户 收 件 箱 的 整洁 。2015 年 9 月， 美军 军队 医疗 中 心 指挥 官 少将 Steve Jones 在 美军 陆军 的 一 次 
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会 议 上 发 言 表 示 ， 未 来 可 以 让 智能 机 器 人 代替 人 类 上 战场 运送 伤员 ， 美 国 军 方 甚至 高 调 宣布 : 
未 来 战场 上 机 器 人 救 起 的 可 能 不 是 人 ， 而 是 机 器 人 ， 因 为 智能 机 器 人 军团 将 代替 人 类 出 征 。 

在 国内 ， 机 器 学 习 掀 起 了 技术 革新 的 热潮 ， 智 能 技术 得 到 了 广泛 的 普及 和 应 用 。 录 属于 
中 国 科学 院 的 新 松 机 器 人 自动 化 公司 生产 了 智能 复合 型 机 器 人 ， 这 个 安装 了 眼睛 和 感知 器 件 
的 智能 机 器 人 ， 可 以 在 车 间 里 自由 地 行走 并 十 分 精确 地 完成 任务 ， 当 其 他 工 位 人 手 不 足 时 ， 
接 到 指令 的 他 还 会 主动 上 前 帮忙 ， 马 上 进入 角色 并 开始 工作 。 百 度 创 造 和 完善 了 大 规模 机 器 
学 习 的 技术 ,搭建 了 一 个 能 容纳 万 亿 特 征 数据 的 、 分 钟 级 别 模型 更 新 的 、 高 效 训练 的 点 击 率 
预 佑 系统 ; 为 进一步 深入 地 发 展 机 器 学 习 技 术 ， 百 度 开 始 研究 如 何 从 “机 器 学 习 ” 到 “复制 
人 类 大 脑 ”; 此 外 ， 百 度 甚 至 在 2016 年 提出 ， 百 度 的 产品 和 服务 都 靠 机 器 学 习 等 技术 来 驱动 。 

随 着 机 器 学 习 技 术 在 国内 外 的 大 量 应 用 ， 机 器 学 习 工 程 师 成 为 炙手可热 的 职位 。 现 在 中 
国 已 经 悄然 兴起 了 机 器 学 习 的 学 习 热 潮 ， 掌 握 了 机 器 学 习 技 术 的 工程 师 将 成 为 各 大 IT 巨头 疯 
抢 的 “ 香 馈 馈 ”"， 良 好 的 发 展 势 兴 和 较 高 的 职业 薪水 ， 吸 引 着 越 来 越 多 的 软件 工程 师 和 数据 分 
析 师 涌 入 机 器 学 习 的 领域 。 国 内 知名 的 公司 百度 、 阿 里 巴巴 、 腾 讯 (俗称 BAT) 为 迎接 大 数据 
时 代 带 来 的 挑战 ， 早 已 全 面 引 进 机 器 学 习 方 面 的 人 才 ， 并 有 组 织 地 对 机 器 学 习 技 术 展 开 大 规 
模 的 、 更 深入 的 研究 。 其 他 各 大 公司 (包括 非 IT 行业 的 公司 ) 也 提出 了 引进 机 器 学 习 研 发 工 
程 师 的 渴求 。 

但 是 ， 机 器 学 习 的 入 门 门槛 较 高 ， 尤 其 是 对 研究 者 的 数学 理解 能 力 有 较 高 的 要 求 ， 相 对 
于 数据 结构 、 算 法 导论 中 讲述 的 计算 机 算法 及 系统 架构 知识 来 说 ， 机 器 学 习 是 一 个 全 新 的 领 
域 ， 理 解 机 器 学 习 算 法 往往 要 从 理解 它 所 涉及 的 数学 公式 和 数学 知识 开始 ， 打 好 数学 基础 是 
非常 有 必要 的 ， 一 且 掌 握 了 数学 分 析 、 线 性 代数 、 概 率 与 统计 、 统 计 学 、 离 散 数学 、 抽 象 代 
数 、 数 学 建 模 等 数学 理论 后 ， 理 解 机 器 学 习 算法 就 会 容易 很 多 ， 不 再 县 惧 那 些 让 人 生 厌 的 、 
麻烦 的 数学 符号 和 数学 公式 ， 说 不 定 还 会 喜欢 上 这 些 数 学 公式 ， 并 亲自 推导 一 番 。 希 望 本 书 
能 帮助 朋友 们 进入 机 器 学 习 的 精彩 世界 。 


读者 对 象 
口 开 发 人 员 。 在 理解 机 器 学 习 算 法 的 基础 上 ， 调 用 机 器 学 习 的 中 间 库 进行 开发 ， 将 机 器 
学 习 应 用 于 各 种 场景 ， 如 数据 分 析 、 图 像 识 别 、 文 本 分 类 、 搜 索引 擎 、 中 文智 能 输入 
法 等 。 
口 架构 师 。 在 理解 机 器 学 习 算 法 的 基础 上 ， 适 应 现代 云 计算 平台 的 发 展 ， 将 机 器 学 习 算 
法 应 用 在 大 规模 的 并 行 计算 上 。 同 时 ， 机 器 学 习 算 法 是 大 数据 分 析 的 基础 ， 如 神经 网 
络 、SVM 、 相 似 度 分 析 、 统 计 分 析 等 技术 。 
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口 机 器 学 习 的 初 、 中 级 读者 。 人 类 对 机 器 学 习 的 研究 只 是 一 个 开始 ， 还 远 远 没有 结束 。 
近年 来 ， 机 器 学 习 一 直 保持 着 强劲 的 发 展 势头 ， 并 拥有 美好 的 发 展 前 景 ， 这 点 不 同 于 
某 些 软件 开发 领域 中 的 程序 语言 或 架构 知识 。 掌 握 机 器 学 习 技术 有 一 定 的 难度 ， 但 也 
意味 着 ， 掌 握 机 器 学 习 的 技术 就 能 获得 更 高 的 薪水 和 更 具 前 景 的 职业 。 


如 何 阅读 本 书 

全 书 分 为 准备 篇 、 基 础 篇 、 统 计 分 析 实 战 篇 和 机 器 学 习 实 战 篇 。 机 器 学 习 算 法 建立 在 复 
杂 的 计算 理论 基础 之 上 ， 并 涉及 多 门 数学 学 科 。 抽 象 的 理论 加 上 成 堆 的 数学 公式 ， 给 部 分 读 
者 带 来 了 极 大 的 挑战 ， 将 渴求 学 习 的 人 们 挡 在 了 门 外 。 针 对 这 种 情况 ， 本 书 力求 理论 联系 实 
际 ， 在 介绍 理论 基础 的 同时 ， 注 重 机 器 学 习 算 法 的 实际 运用 ， 让 读者 更 好 地 明白 其 中 的 原理 。 

准备 篇 中 首先 将 介绍 机 器 学 习 的 发 展 及 应 用 前 景 ， 使 读者 产生 浓厚 的 兴趣 ， 同 时 也 将 介 
绍 目前 常用 的 科学 计算 平台 和 本 书 将 用 到 的 工程 计算 平台 ， 使 读者 消除 对 机 器 学 习 的 旦 难 情 
绪 ， 这 些 平台 的 使 用 也 降低 了 机 器 学 习 软 件 实现 的 难度 。 

基础 篇 将 介绍 数学 知识 基础 和 计算 平台 应 用 实例 ， 介 绍 计算 平台 的 开发 基本 知识 ， 并 应 
用 这 些 平台 实现 计算 应 用 。 

最 后 ， 本 书 将 针对 统计 分 析 实 战 和 机 器 学 习 实战 两 个 部 分 帮助 读者 建立 机 器 学 习 实战 指 
南 ， 应 用 计算 平台 对 统计 分 析 及 机 器 学 习 算法 进行 实现 和 应 用 ， 同 时 还 会 附 上 效果 图 ， 让 读 
者 对 机 器 学 习 的 基本 应 用 和 理论 基础 有 一 个 形象 的 理解 。 


勘误 和 支持 

由 于 作者 的 水 平 有 限 ， 编 写 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 不 准确 的 地 方 ， 
不 妥 之 处 奶 请 读者 批评 指正 。 如 果 遇 到 任何 问题 ， 或 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮件 至 我 
的 邮箱 myhaspl@myhasplcom， 很 期 待 能 够 听 到 您 的 真 执 反馈 。 此 外 ， 本 书 的 代码 及 相关 资 
源 (包括 思考 题 中 涉及 的 数据 等 ) 的 下 载 地 址 为 : https:/yunpan.cn/cYjhBYGLKkKTb (提取 码 : 
65ad)。 
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机 器 学 习 发 展 及 应 用 前 景 


纵 观 国内 软件 工程 师 的 发 展 路线 ， 前 期 多 以 程序 员 (“ 码 农 ”)、 测 斌 工程师、 数据 库 管 
理 员 、 多 媒体 技术 员 、 网 页 与 信息 技术 员 等 职业 为 主 ; 中 期 主要 是 软件 设计 师 、 软 件 评测 师 、 
技术 支持 师 等 职业 ; 后 期 是 职业 发 展 的 黄金 阶段 ， 这 一 阶段 对 于 拥有 丰富 技术 经 验 的 工程 师 
来 说 十 分 重要 ， 但 这 一 阶段 容易 遭遇 到 技术 发 展 瓶 颈 ， 因 此 ， 很 多 人 将 目光 投向 了 项 目 管理 
和 系统 架构 ， 比 如 : 系统 架构 师 、 项 目 管理 师 等 。 

近年 来 ， 国 内 对 机 融 学 习 的 研究 日 益 深 入 ， 应 用 领域 不 断 扩 大 ， 人 催生 了 新 的 I 开 职 
位 机 器 学 习 工 程 师 ， 百 度 、 搜 狗 、 阿 里 巴巴 、 淘 宝 、 奇 虎 等 国内 IT 巨头 纷纷 提出 了 对 机 
器 学 习 工 程 师 的 需求 ， 掌 握 机 器 学 习 的 人 才 成 为 了 各 大 YT APH E o DAA 
迅速 走红 成 为 热门 技术 ， 这 给 软件 工程 师 带 来 了 绝 佳 的 发 展 机 遇 ， 研 究 与 应 用 机 器 学 习 算 法 
成 为 了 突破 技术 瓶颈 的 方式 ， 机 器 学 习 工 程 师 、 项 目 管理 师 和 系统 架构 师 并 称 为 后 期 发 展 的 
三 大 黄金 职位 。 





1.1 Bla £N 


机 器 学 习作 为 一 门 多 领域 的 交叉 学 科 ， 在 近 20 年 里 异 军 突 出 。 机 器 学 习 涉 及 概率 论 、 
统计 学 、 微 积分 、 代 数学 、 算 法 复杂 度 理论 等 多 门 学 科 。 通 过 可 以 让 计算 机 自动 “学 习 ” 的 
算法 来 实现 人 工 智能 ， 是 人 类 在 人 工 智能 领域 展开 的 积极 探索 。 

2009 年 ， 被 誉 为 人 工大 脑 之 父 的 雨 果 ' 德 * 加 里 斯 教授 走 进 清华 大 学 讲堂 ， 在 两 小 时 
的 演讲 时 间 内 ， 给 大 家 描述 了 一 个 人 工 智能 的 世界 : 20 年 后 ， 人 工 智 能 机 器 可 以 和 人 类 做 朋 
友 ，50 年 后 ， 人 工 智 能 将 成 为 人 类 最 大 的 威胁 ， 世 界 最 终 会 因 人 工 智 能 超过 人 类 而 爆发 一 场 
战争 ， 这 场 智能 战争 也 许 会 夺 去 数 十 亿 人 的 生命 。 这 样 的 描述 并 不 是 幻想 ， 随 着 人 类 在 人 工 
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智能 领域 取得 的 进步 ， 这 很 有 可 能 成 为 事实 。 而 这 一 切 主要 归功 于 对 机 器 学 习 的 研究 和 探索 。 


1.1.1 “什么 是 机 器 学 习 

学 习 是 人 类 具有 的 一 种 重要 智能 行为 。 人 类 一 直 梦 想 机 器 能 像 人 类 一 样 学 习 ， 也 一 直 在 
为 这 个 终极 目标 努力 。 那 么 ， 什 么 是 机 器 学 习 呢 ? 长 期 以 来 众说 纷 终 ，Langley ( 1996 ) 定义 
机 器 学 习 为 :“ 机 器 学 习 是 一 门人 工 智 能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智能 ， 特 别 
是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 ”( Machine learning is a science of the artificial. The 
field’s main objects of study are artifacts, specifically algorithms that improve their performance 
with experience.). Mitchell ( 1997 ) 在 《 Machine Learning 》 中 写 道 :“ 机 需 学 习 是 计算 机 
算法 的 研究 ， 并 通过 经 验 提 高 其 自动 进行 改善 ”( Machine Learning is the study of computer 
algorithms that improve automatically through experience.). Alpaydin ( 2004 ) 提出 自己 对 机 禹 
学 习 的 定义 :“ 机 器 学 习 是 用 数据 或 以 往 的 经 验 ， 来 优化 计算 机 程序 的 性 能 标准 ”( Machine 
learning is programming computers to optimize a performance criterion using example data or past 
experience). 

笔者 综合 维基 百科 和 百度 百科 的 定义 ， 尝 试 着 将 机 器 学 习 定义 如 下 :“ 机 器 学 习 是 一 门 
人 工 智能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 
的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 使 之 不 断 改 善 自身 的 性 能 ， 
它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 机 器 学 习 的 研究 方法 通常 是 根据 生 
理学 、 认 知 科 学 等 对 人 类 学 习 机 理 的 了 解 ， 建 立 人 类 学 习 过 程 的 计算 模型 或 认识 模型 ， 发 展 
各 种 学 习 理论 和 学 习 方 法 ， 研 究 通用 的 学 习 算 法 并 进行 理论 上 的 分 析 ， 建 立 面向 任务 的 具有 
特定 应 用 的 学 习 系 统 。 


1.1.2 ”机 器 学 习 的 发 展 

早 在 古代 ， 人 类 就 萌生 了 制造 出 智能 机 器 的 想法 。 中 国人 在 4500 年 前 发 明 的 指南 车 ， 
以 及 三 国 时 期 诸葛 亮 发 明 的 尽 人 皆 知 的 木 牛 流 马 ; 日 本 人 在 几 百 年 前 制造 过 靠 机 械 装置 驱动 
的 玩偶 ; 1770 年 英国 公使 给 中 国 皇 帝 进 贡 了 一 个 能 写 “ 八 方向 化 ， 九 土 来 王 ”8 个 汉字 的 机 
器 玩偶 (这 个 机 器 人 至 今 还 保存 在 故宫 博物 院 )， 等 等 。 这 些 例子 ， 都 只 是 人 类 早期 对 机 器 学 
习 的 一 种 认识 和 尝试 。 

真正 的 机 器 学 习 人 研究 起 步 较 晚 ， 它 的 发 展 过 程 大 体 上 可 分 为 以 下 4 个 时 期 : 

第 一 阶段 是 在 20 世纪 50 年 代 中 叶 到 20 世纪 60 年 代 中 叶 ， 属 于 热烈 时 期 。 

第 二 阶段 是 在 20 世纪 60 年 代 中 叶 至 20 世纪 70 年 代 中 叶 ， 被 称 为 机 器 学 习 冷 静 期 。 

第 三 阶段 是 从 20 世纪 70 年 代 中 叶 至 20 世纪 80 年 代 中 叶 ， 称 为 机 器 学 习 复兴 期 。 

最 新 的 阶段 起 始 于 1986 年 。 当 时 ， 机 器 学 习 综 合 应 用 了 心理 学 、 生 物 学 和 神经 生理 学 
以 及 数学 、 自 动 化 和 计算 机 科学 ， 并 形成 了 机 器 学 习 理 论 基 础 ， 同 时 还 结合 各 种 学 习 方 法 取 
长 补 短 ， 形 成 集成 学 习 系 统 。 此 外 ， 机 器 学 习 与 人 工 智能 各 种 基础 问题 的 统一 性 观点 正在 形 
成 ， 各 种 学 习 方 法 的 应 用 范围 不 断 扩 大 ， 同 时 出 现 了 商业 化 的 机 器 学 习 产 品 ， 还 积极 开展 了 
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与 机 器 学 习 有 关 的 学 术 活 动 。 

近年 来 ， 随 着 全 球 第 三 次 工业 革命 的 迅 狐 发 展 ， 机 器 学 习 在 国内 外 得 到 了 广泛 的 应 用 和 
发 展 ， 如 今 ， 它 已 经 在 各 行 各 业 的 技术 革新 中 扮演 着 日 益 重 要 的 角色 ， 从 各 方面 影响 和 改变 
着 我 们 的 生活 。 

2015 年 8 月 ，Facebook 推出 了 “M”，Facebook 认为 人 类 不 仅 会 回答 人 工 智能 所 不 能 回 
答 的 问题 ， 而 且 从 长 远 来 看 ， 人 类 也 会 帮助 改善 人 工 智能 技术 ,“M” 除 了 能 做 到 回答 问题 、 
查阅 信息 等 基本 功能 ， 还 可 以 帮助 用 户 完 成 如 购买 商品 、 和 餐厅 定位 、 安 排 旅行 计划 等 操作 。 

2015 年 11 月 ,谷歌 开源 了 全 新 的 TensorFlow HAJRA, BARER, EHAE, E 
具有 弹性 。2015 年 1 月， 机 器 学 习 平台 GraphLab 改名 为 Dato， 并 获得 了 1850 万 美元 的 新 
融资 (投资 方 为 Vulcan Capital, Opus Capital, New Enterprise Associates, Madrona Venture 
Group)， 此 前 他 们 曾 获 得 680 万 美元 的 融资 。 

f£ 2015 年 12 月 召开 的 “2015 年 神经 信息 处 理 系统 ”(NIPS) 会 议 上 ， 微 软 研究 人 员 和 
工程 师 公开 了 20 多 篇 机 器 学 习 最 新 研究 成 果 的 论文 。 此 外 ， 微 软 还 宣布 ， 机 器 学 习 正 在 成 
为 Windows 10 的 一 部 分 : Skype 翻译 可 以 将 口语 几乎 实时 地 翻译 成 其 他 语言 ， 就 像 《 星 际 迷 
航 》 中 的 通用 翻译 器 那样 ， 可 以 做 到 面对面 的 交流 。Cortana 个 人 数字 助理 在 与 用 户 的 互动 中 
不 断 学 习 与 改进 ， 从 而 帮助 用 户 管理 日 历 、 跟 踪 快 递 甚至 与 用 户 聊天 和 讲 笑话 ， 实 现 真正 的 
个 性 化 互动 体验 。Clutter 是 微软 Office 2016 的 成 员 ， 通 过 学 习 它 可 以 识别 出 哪些 电子 邮件 对 
用 户 来 说 最 重要 ， 并 自动 将 不 重要 的 邮件 重 定向 到 一 个 单独 的 文件 夹 中 ， 从 而 保持 用 户 收 件 
箱 的 整洁 。 

2015 年 年 底 ， 隶 属于 中 国 科 学 院 的 新 松 机 器 人 自动 化 公司 生产 了 智能 复合 型 机 器 人 ， 这 
个 安装 了 眼睛 和 感知 器 件 的 智能 机 器 人 ， 可 以 在 车 间 里 自由 地 行走 并 十 分 精确 地 完成 任务 ， 
当 其 他 工 位 人 手 不 足 时 ， 接 到 指令 的 他 还 会 主动 上 前 帮忙 ， 马 上 进入 角色 并 开始 工作 。 

百度 创造 和 完善 了 大 规模 机 咒 学 习 的 技术 ,搭建 了 一 个 能 容纳 万 亿 特 征 数据 的 、 分 钟 级 
别 模型 更 新 的 、 高 效 训 练 的 点 击 率 预 估 系统 ; 为 进一步 深入 地 发 展 机 器 学 习 技术 ， 百 度 开始 
研究 如 何 从 “机 器 学 习 ” 到 “复制 人 类 大 脑 ”; 2016 年 年 初 ， 百 度 提出 ， 百 度 的 产品 和 服务 
都 靠 机 器 学 习 等 技术 来 驱动 。 


1.1.3 ”机 器 学 习 的 未 来 

纵 观 人 类 文明 的 发 展 史 ， 人 类 已 经 走 过 了 石器 时 代 、 红 铀 时代、 青铜 时 代 、 铁 器 时 代 、 
黑暗 时 代 、 启 蒙 时 代 、 薰 汽 时 代 、 电 气 时 代 、 原 子 时 代 等 时 代 历 程 ， 未 来 近 百 年 内 ， 人 类 将 
从 原子 时 代 走 向 智能 时 代 ， 而 且 对 于 机 器 学 习 的 未 来 ， 人 类 已 经 提出 了 很 多 构想 。 

2013 年 4 月 的 汉诺威 工业 博览 会 上 ， 工 业 4.0 战略 的 概念 被 首次 提出 ,“ 工 业 4.0” 是 指 
以 智能 制造 为 主导 的 第 四 次 工业 革命 ， 或 者 革命 性 的 生产 方法 。 该 战略 旨 在 通过 充分 利用 信 
息 通信 技术 和 网 络 空间 虚拟 系统 与 信息 物理 系统 相 结合 的 手段 ， 将 制造 业 向 智能 化 转型 。 根 
据 机 器 学 习 等 智能 技术 的 未 来 发 展 趋势 ， 工 业 4.0 主要 包括 智能 工厂 (重点 研究 智能 化 生产 
系统 及 过 程 ， 以 及 网 络 化 分 布 式 生产 设施 的 实现 )、 智 能 生产 (主要 涉及 整个 企业 的 生产 物流 
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管理 、 人 机 互动 ,以 及 3D 技术 在 工业 生产 过 程 中 的 应 用 等 )、 智 能 物流 (主要 通过 互联 网 、 
物 联网 、 物 流 网 ， 整 合 物流 资源 ， 充 分 发 挥 现 有 物流 的 效率 ) 等 应 用 。 

2015 年 9 月 ， 美 军 军队 医疗 中 心 指挥 官 少将 Steve Jones 在 美军 陆军 的 一 次 会 议 上 发 言 
表示 ， 未 来 可 以 让 智能 机 器 人 代替 人 类 上 战场 运送 伤员 ， 美 国 军 方 甚至 高 调 宣 布 ， 未 来 战场 
上 机 器 人 救 起 的 可 能 不 是 人 ， 而 是 机 器 人 ， 因 为 智能 机 器 人 军团 将 代替 人 类 出 征 。 

在 21 世纪 以 前 , “人工 智能 大 爆炸 ”的 设想 似乎 还 只 是 科幻 小 说 家 杞 人 忧 天 的 幻想 。 到 
了 今天 ， 有 越 来 越 多 的 人 开始 严肃 地 思考 一 个 问题 : 当 技术 奇 点 到 来 的 时 候 ， 人 类 将 会 怎 
FÉ? 2009 年 ，Kurzweil 5j X-Prize 创始 人 Peter Diamandis 共同 建立 了 奇 点 大 学 ( Singularity 
University)， 致 力 于 “聚集 、 教 育 并 激励 一 批 核心 的 领导 者 ， 以 应 对 人 类 在 指数 级 增长 的 科 
技 下 遭遇 到 的 重要 挑战 "， 人 类 保卫 战 似乎 已 经 迫在眉睫 。 这 所 大 学 由 谷歌 、 欧 特 克 、 美 国 
基因 技术 公司 等 联合 支持 创建 ， 共 有 三 个 项 目 ， 歼 盖 范 围 包 括 机 器 人 学 、 医 学 、 生 物 科技 、 
数据 科学 和 企业 管理 等 。 

云 计算 带 来 了 强大 的 运算 能 力 ， 大 数据 算法 也 得 到 了 广泛 应 用 ， 虽然 它们 还 不 足以 使 计 
算 机 变 得 更 智能 ， 但 它们 创造 了 强人 工 智 能 产生 的 必要 条 件 一 一 大 数据 使 得 机 器 能 够 从 海量 
的 信息 中 进行 学 习 ， 云 计算 拥有 廉价 且 强 大 的 接近 人 脑 的 运算 能 力 。 

在 不 和 久 的 将 来 ， 机 器 学 习 将 走向 强人 工 智能 时 代 ， 将 出 现 真正 的 能 推理 和 解决 问题 的 智 
能 机 器 ， 这 些 机 器 将 有 知觉 和 自我 意识 ， 智 能 水 平 与 人 类 相当 。 


1.2 机 器 学 习 应 用 前 景 
机 器 学 习 应 用 广泛 ， 无 论 是 在 军事 领域 还 是 民用 和 领域， 都 有 机 器 学 习 算 法 施展 的 机 会 。 


1.2.1 ”数据 分 析 与 挖掘 

“数据 挖掘 ”和 “数据 分 析 ” 通 常 被 相提并论 ， 并 在 许多 场合 被 认为 是 可 以 相互 苦 代 的 
术语 。 关 于 数据 挖掘 ， 现 在 已 有 多 种 文字 不 同 但 含义 接近 的 定义 ， 例 如 “识别 出 巨 量 数据 中 
有 效 的 、 新 颖 的 、 湾 在 有 用 的 、 最 终 可 理解 的 模式 的 非 平凡 过 程 ”; 百度 百科 将 数据 分 析 定 
义 为 :“ 数 据 分 析 是 指 用 适当 的 统计 方法 对 收集 来 的 大 量 第 一 手 资料 和 第 二 手 资料 进行 分 析 ， 
以 求 最 大 化 地 开发 数据 资料 的 功能 ， 发 挥 数据 的 作用 ， 它 是 为 了 提取 有 用 信息 和 形成 结论 而 
对 数据 加 以 详细 研究 和 概括 总 结 的 过 程 。” 无 论 是 数据 分 析 还 是 数据 挖掘 ， 都 是 帮助 人 们 收 
集 、 分 析 数 据 ， 使 之 成 为 信息 ， 并 作出 判断 ， 因 此 可 以 将 这 两 项 合 称 为 “数据 分 析 与 挖掘 ”。 

数据 分 析 与 挖掘 技术 是 机 器 学 习 算法 和 数据 存 取 技 术 的 结合 ， 利 用 机 器 学 习 提供 的 统计 
分 析 、 知 识 发 现 等 手段 分 析 海量 数据 ， 同 时 利用 数据 存 取 机 制 实现 数据 的 高 效 读 写 。 机 器 学 
习 在 数据 分 析 与 挖掘 领域 中 拥有 无 可 取代 的 地 位 ，2012 年 Hadoop 进军 机 器 学 习 领 域 就 是 一 
个 很 好 的 例子 。 

2012 年 ，Cloudera 收购 Myrrix 共 创 Big Learning， 从 此 ， 机 器 学 习 俱 乐 部 多 了 一 名 新 会 
员 。Hadoop 和 便宜 的 硬件 使 得 大 数据 分 析 更 加 容易 ， 随 着 硬盘 和 CPU 越 来 越 便宜 ， 以 及 开 
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源 数据 库 和 计算 框架 的 成 熟 ， 创 业 公司 甚至 个 人 都 可 以 进行 TB 级 以 上 的 复杂 计算 。Myrrix 
从 Apache Mahout 项 目 演变 而 来 ， 是 一 个 基于 机 器 学 习 的 实时 可 扩展 的 集群 和 推荐 系统 。 

其 他 大 公司 也 纷纷 采用 机 器 学 习 技术 分 析 数 据 ， 以 提高 其 产品 和 服务 的 质量 。 微 软 官 
方正 式 启动 Azure 机 器 学 习 平台 ， 并 已 经 在 Xbox 和 Bing 中 使 用 ， 它 能 够 支持 R、Python.、 
Hadoop, Spark 等 语言 。 福 特 用 AI 安排 工作 进度 ,通过 AI 解决 其 因 员 工 日 益 增多 而 带 来 的 
工作 安排 问题 。 谷 歌 将 大 型 机 器 学 习 技术 应 用 于 药物 发 现 ， 将 神经 网 络 的 深度 学 习 应 用 于 虚 
拟 药物 第 选 ， 主 要 是 试图 替换 或 提高 高 通 量 筛选 过 程 中 的 计算 方法 。 雅 虎 使 用 机 带 学 习 算 法 
挖掘 160 亿 邮件 数据 ， 实 验 室 的 研究 人 员 研 究 了 两 百 万 人 之 间 的 160 亿 封 邮件 ， 以 分 析 用 
户 的 行为 习惯 。PayPal 使 用 机 器 学 习 来 打击 诈骗 ， 通 过 机 器 学 习 和 统计 模型 来 识别 诈骗 行 
为 ， 将 更 复杂 的 算法 用 于 过 滤 交 易 。AWS 向 欧洲 开发 商 开 放 机 器 学 习 服务 ， 可 以 通过 AWS 
Dublin 区 域 使 用 该 服务 ， 公 司 期 望 亚 马 逊 的 机 器 学 习 能 够 帮助 解决 限制 问题 ， 所 有 的 分 析 和 
预测 均 通 过 在 欧洲 的 数据 完成 ， 并 且 从 不 离开 这 个 区 域 。 


1.2.2 ”模式 识别 

模式 识别 起 源 于 工程 领域 ， 而 机 器 学 习 起 源 于 计算 机 科学 ， 这 两 个 不 同学 科 的 结合 带 来 
了 模式 识别 领域 的 调整 和 发 展 。 模 式 识 别 研究 主要 集中 在 两 个 方面 : 一 是 研究 生物 体 (包括 
A) 是 如 何 感知 对 象 的 ， 属 于 认识 科学 的 范畴 ; 二 是 在 给 定 的 任务 下 ， 如 何 用 计算 机 实现 模 
式 识别 的 理论 和 方法 ， 这 些 是 机 器 学 习 的 长 项 ， 也 是 机 器 学 习 研究 的 内 容 之 一 。 

模式 识别 的 应 用 领域 广泛 ， 包 括 计 算 机 视觉 、 医 学 图 像 分 析 、 光 学 文字 识别 、 自 然 语言 
处 理 、 语 音 识别 、 手 写 识 别 、 生 物 特征 识别 、 文 件 分 类 、 搜 索引 擎 等 ， 而 这 些 领 域 也 正 是 机 
器 学 习 的 大 展 身手 的 舞台 ， 因 此 模式 识别 与 机 器 学 习 的 关系 越 来 越 密切 ， 以 至 于 国外 很 多 书 
籍 把 模式 识别 与 机 器 学 习 综合 在 一 本 书 里 讲述 。 


1.2.8 ”更 广阔 的 领域 

2015 年 是 机 器 学 习 年 ， 用 机 器 学 习 改 造 人 类 社会 的 革命 时 代 已 经 来 临 。 不 但 谷歌 、 亚 马 
逊 、 埃 森 哲 、 丰 田 、 特 斯 拉 、 美 国 强生 等 大 公司 都 在 大 规模 地 采用 机 器 学 习 技 术 ， 而 且 ， 创 
业 公司 也 加 入 了 这 场 机 器 学 习 的 革命 ,并 拥有 和 大 公司 同等 的 地 位 。 创 业 公 司 已 经 公布 了 机 
器 学 习 的 创新 型 应 用 ， 投 资 商 对 机 器 学 习 创业 公司 表示 出 浓厚 的 兴趣 。 已 经 有 超过 170 家 创 
业 公 司 进 入 AI 浪潮， 谷歌 、IBM 等 大 型 科技 公司 并 对 AI 投入 重金 。 

机 器 学 习 技 术 在 全 球 各 行 各 业 的 应 用 已 经 进入 井喷 时 期 ， 相 关 新 闻 比 比 皆 是 。Google 
DeepMind 研究 人 员 已 经 成 功 让 计算 机 通过 机 器 学 习 成 为 Atari 视频 游戏 的 大 师 。 谷 歌 与 美 
国 强生 合作 发 展 的 AI 手术 机 器 人 人， 能够 帮助 外 科 医 生 减 少 对 病人 的 伤害 。Facebook 开发 了 
人 工 智能 测试 ， 能 够 判断 AI 的 智能 程度 。Dato 也 加 入 了 机 器 学 习 创 业 潜 流 ， 机 器 学 习 平台 
GraphLab ( GraphLab 是 一 个 开源 项 目 ， 旨 在 帮助 机 器 分 析 图 像 ， 如 社交 关系 图 ) 改名 Dato, 
获得 了 1850 万 美元 的 新 融资 。 微 软 已 经 为 “小 娜 ”构建 了 聊天 机 制 ， 机 器 学 习 使 得 “小 娜 ” 
不 仅 能 够 识别 玩笑 并 能 预测 运动 赛事 ， 还 能 够 告诉 你 早点 去 开会 (比如 因为 交通 堵塞 )。 英 
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特 尔 的 18 核 Xeon 芯片 为 机 器 学 习 专门 做 了 调整 ， 为 快速 变化 的 服务 市 场 设 计 了 E7 芯片 ， 
该 公司 宣称 ， 新 的 芯片 在 运作 企业 应 用 时 要 快 6 倍 。Airbnb 公布 了 机 需 学 习 包 Aerosolve, 
Airbnb 相信 人 与 机 器 以 共生 的 方式 进行 合作 的 效率 会 比 只 有 人 或 机 器 高 ， 这 个 包 的 设计 本 质 
是 追求 人 性 化 。 机 器 学 习 也 进入 了 Gartner 的 2015 Hype Cycle 报告 ，Hype Cycle 只 展示 数字 
人 文 主义 的 技术 并 且 它 主要 展示 Gartner 认为 有 重大 影响 的 技术 ， 而 机 器 学 习 是 报告 中 第 一 
个 出 现 的 技术 。 


1.5 小 结 


机 器 学 习作 为 一 门 多 领域 交叉 学 科 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 专 门 研究 计算 
机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 ， 使 
之 不 断 改善 自身 的 性 能 ， 它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 

近年 来 ， 机 器 学 习 的 研究 与 应 用 在 国内 外 越 来 越 重 视 。 机 器 学 习 已 经 广泛 应 用 于 语音 识 
别 、 图 像 识别 、 数 据 挖掘 等 领域 。 大 数据 时 代 的 到 来 ， 使 机 器 学 习 有 了 新 的 应 用 领域 ， 从 包 
含 设备 维护 、 借 贷 申 请 、 金 融 交 易 、 医 疗 记 录 、 广 告 点 击 、 用 户 消费 、 客 户 网 络 行为 等 数据 
中 发 现 有 价值 的 信息 已 经 成 为 其 研究 与 应 用 的 热点 。 

我 们 以 记者 与 雨 果 ' 8 - 加 里 斯 教授 的 部 分 专访 内 容 来 结束 这 一 章 。 

记者 : 为 什么 选择 这 个 研究 工作 ? 

AR «dE mE: 对 人 类 大 脑 的 好 奇 心 和 人 脑 的 想象 力 的 好 奇 心 。 人 类 只 是 一 个 个 分 
子 构成 的 机 器 ， 像 计算 机 的 芯片 一 样 ， 像 编制 程序 一 样 。 另 一 方面 ， 作 为 生物 人 都 会 死亡 消 
失 的 ,但 人 工 智 能 机 器 就 不 会 。 所 以 说 ， 这 个 研究 就 像 制造 神 一 样 。 

当 人 类 促使 技术 进步 ， 让 具有 人 工 智能 的 机 器 人 得 以 诞生 和 发 展 ， 但 总 有 一 天 人 工 智 能 
机 器 会 实现 自己 进化 ， 当 这 种 技术 达到 一 个 奇 点 的 时 候 ， 就 不 需要 人 类 来 推动 了 。 比 人 类 聪 
明 得 多 的 人 工 智 能 机 器 将 在 以 年 为 单位 的 短 时 间 里 产生 ， 

记者 : 预测 一 下 未 来 人 工 智 能 机 器 的 前 景 。 

HA 4 mE: 下 一 个 20 年 ， 它 们 很 有 可 能 出 现在 我 们 的 家 里 ， 为 我 们 打扫 房间 ， 
照顾 小 孩 ， 和 我 们 聊天 ， 给 我 们 来 自 地 球 上 知识 库 里 面 的 无 限 知识 。 我 们 还 将 可 以 和 它们 有 
性 关系 ， 被 它们 教育 ， 从 它们 那里 得 到 娱乐 和 开怀 大 笑 。20 年 后 的 大 脑 制造 业 ， 每 年 全 球 
范围 内 将 可 能 创造 万 亿美 元 的 价值 。 人 工 智 能 机 器 有 比 我 们 聪明 万 亿 倍 的 可 能 性 ， 不 硅 张 地 
说 ， 人 工 智能 机 器 和 人 类 交流 ， 就 像 人 类 试图 和 岩石 交流 一 样 艰难 。 不 过 ， 真 正 的 人 工 智能 
在 我 死 后 的 三 四 十 年 内 不 会 被 制造 出 来 。 我 活着 看 不 到 工作 的 真正 结果 ， 这 是 让 我 沁 表 和 失 
望 的 一 个 根源 。 
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科学 计算 平台 


机 器 学 习 算法 具有 坚实 的 数学 理论 支持 ， 机 器 学 习 的 应 用 建立 在 科学 计算 的 基础 上 ， 而 
数学 计算 又 是 科学 计算 的 主要 组 成 部 分 。 计 算 机 技术 的 飞速 发 展 和 计算 数学 方法 及 理论 的 日 
益 成 熟 ， 使 解决 复杂 的 数学 计算 问题 成 为 可 能 。 这 些 问 题 在 以 前 用 一 般 的 计算 工具 来 解决 非 
常 困 难 ， 而 现在 用 计算 机 来 处 理 却 非常 容易 。 目 前 用 计算 机 处 理 得 较 多 的 数学 计算 主要 分 为 
以 下 两 类 : 

第 一 类 是 数值 计算 ， 它 以 数值 数组 作为 运算 对 象 ， 给 出 数值 解 ; 计算 过 程 中 可 能 会 产生 
误差 累积 问题 ， 影 响 了 计算 结果 的 精确 性 ; 计算 速度 快 ， 占 用 资源 少 。 

第 二 类 是 符号 计算 ， 它 以 符号 对 象 和 符号 表达 式 作为 运算 对 象 ， 给 出 解析 解 ; 运算 不 受 
计算 误差 累积 问题 的 影响 ; 计算 指令 简单 ; 占用 资源 多 ， 计 算 耗 时 长 。 

数值 计算 方法 成 为 了 科学 计算 的 重要 手段 ， 它 研究 怎样 利用 计算 工具 来 求 出 数学 问题 的 
数值 解 。 数 值 计 算 方 法 的 计算 对 象 是 微 积 分 、 线 性 代数 、 插 值 与 通 近 及 最 小 二 乘 拟 合 、 数 值 
积分 与 数值 微分 、 和 矩阵 的 特征 值 与 特征 向 量 求解 、 线 性 方程 组 与 非 线 性 方程 求 根 ， 以 及 微分 
方程 数值 解法 等 数学 问题 ， 这 些 是 模式 识别 、 数 据 分 析 及 自动 制造 等 机 器 学 习 领 域 需要 应 用 
的 数学 。 

符号 计算 是 专家 系统 等 机 器 学 习 领 域 需要 应 用 的 数学 ， 在 符号 计算 中 ， 计 算 机 处 理 的 
数据 和 得 到 的 结果 都 是 符号 。 符 号 既 可 以 是 字母 和 公式 ， 也 可 以 是 数值 ， 其 运算 以 推理 解析 
的 方式 进行 ， 不 受 计算 误差 积累 问题 困扰 ， 计 算 结 果 为 完全 正确 的 封闭 解 或 任意 精度 的 数值 
解 ， 这 意味 着 符号 计算 给 出 的 结果 能 避免 因 舍 人 误差 而 引起 的 问题 。 还 有 更 多 的 数学 分 支 正 
在 进入 机 器 学 习 领 域 ， 复 杂 的 数学 计算 需要 强大 的 科学 计算 平台 。 科 学 计算 平台 提供 了 机 器 
学 习 算 法 应 用 的 底层 支持 。 
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2.1 科学 计算 软件 平台 概述 

现代 科学 研究 的 方法 主要 有 三 种 : 理论 论证 、 科 学 实验 、 科 学 计算 。 近 年 来 ， 科 学 计 
算 方 法 逐步 成 为 科学 研究 的 主流 方法 ， 在 金融 工程 、 信 息 检 索 、 基 因 研 究 、 环 境 模拟 、 数 值 
计算 、 数 据 分 析 、 决 策 支 持 等 领域 得 到 了 广泛 使 用 。 由 于 计算 机 技术 的 发 展 及 其 在 各 技术 科 
学 领域 的 应 用 推广 与 深化 ， 这 些 应 用 领域 不 论 其 背景 与 含义 如 何 ， 都 要 用 计算 机 进行 科学 计 
算 ， 都 必须 建立 相应 的 数学 模型 ， 并 研究 其 适合 于 计算 机 编程 的 计算 方法 。 科 学 计算 平台 已 
经 成 为 科学 研究 必要 的 基础 条 件 平台 ， 有 力 地 推动 了 科学 研究 的 发 展 和 工程 技术 的 进步 。 

机 器 学 习 应 用 需要 科学 计算 的 支持 。 大 部 分 科学 计算 应 用 的 领域 都 需要 用 到 机 器 学 习 算 
法 ， 科 学 计算 平台 与 机 器 学 习 之 间 的 关系 就 像 鱼 与 水 的 关系 。 现 代 机 咒 学 习 研 究 与 应 用 早已 
经 离 不 开 科学 计算 平台 的 支撑 ， 科 学 计算 平台 也 因为 机 器 学 习 的 迅猛 发 展 而 进入 了 全 新 的 百 
家 争鸣 时 代 。 


2.1.1 ”常用 的 科学 计算 软件 

目前 常用 的 科学 计算 软件 有 以 下 几 种 : 

1. MATLAB 

MATLAB 是 一 种 用 于 数值 计算 、 可 视 化 及 编程 的 高 级 语言 和 交互 式 环境 。 使 用 
MATLAB， 可 以 分 析 数 据 、 开 发 算法 、 创 建 模 型 和 应 用 程序 ， 通 过 矩阵 运算 、 绘 制 函 数 和 数 
据 、 实 现 算法 、 创 建 用 户 界面 、 连 接 其 他 编程 语言 等 方式 完成 计算 ， 比 电子 表格 或 传统 编程 
语言 (如 C/C++ 或 Java) 更 方便 快捷 MATLAB 具有 强大 的 数值 计算 功能 ， 可 完成 矩阵 分 析 、 
线性 代数 、 多 元 函数 分 析 、 数 值 微 积 分 、 方 程 求解 、 边 值 问 题 求解 、 数 理 统 计 等 常见 的 数值 
计算 ， 同 时 它 也 能 进行 符号 计算 。 

2. GNU Octave 

GNU Octave 与 MATLAB 相似 ， 它 是 自由 软件 基金 会 开发 的 一 个 自由 再 发 布 软件 ， 以 
John W. Eaton 为 首 的 一 些 志 愿 者 共同 开发 了 叫 作 GNU Octave 的 高 级 语言 ， 这 种 语言 与 
MATLAB 兼容 ， 主 要 用 于 数值 计算 ， 同 时 它 还 提供 了 一 个 方便 的 命令 行 方式 ， 可 以 数值 求解 
线性 和 非 线性 问题 ， 以 及 做 一 些 数值 模拟 。 

3. Mathematica 

Mathematica 系统 是 美国 Wolfram 研究 公司 开发 的 一 个 功能 强大 的 计算 机 数学 系统 。 它 提 
供 了 范围 广泛 的 数学 计算 功能 ， 支 持 在 各 个 领域 工作 的 人 们 做 科学 研究 的 过 程 中 的 各 种 计算 。 
这 个 系统 是 一 个 集成 化 的 计算 机 软件 系统 ， 它 的 主要 功能 包括 符号 演算 、 数 值 计算 和 图 形 三 
个 方面 ， 可 以 帮助 人 们 解决 各 种 领域 里 比较 复杂 的 符号 计算 和 数值 计算 的 理论 和 实际 问题 。 

4. Maple 

1980 年 9 月 ， 加 拿 大 滑铁卢 大 学 的 符号 计算 研究 小 组 研制 出 一 种 计算 机 代数 系统 ， 取 名 
为 Maple， 如 今 Maple 已 演变 成 为 优秀 的 数学 软件 ， 它 具有 良好 的 使 用 环境 、 强 有 力 的 符号 
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计算 能 力 、 高 精度 的 数字 计算 、 灵 活 的 图 形 显示 和 高 效 的 可 编程 功能 。Maple 在 符号 计算 方 
面 功 能 强大 ， 符 号 计算 式 可 以 直接 以 数学 的 形式 来 输入 和 输出 ， 直 观 方便 。 

5. SPSS 

SPSS 预测 分 析 是 IBM 公司 的 产品 ， 它 提供 了 统计 分 析 、 数 据 和 文本 挖掘 、 预 测 模型 和 决 
策 优化 等 功能 。IBM 宣称 ,使 用 SPSS 可 获得 5 大 优势 : 商业 智能 ， 利 用 强大 而 简单 的 分 析 功 
能 ， 控 制 数 据 爆 炸 ， 满 足 组 织 灵 活 部 署 商业 智能 的 需求 ， 提 升 用 户 期 望 值 ; 绩效 管理 ， 指 导管 
理 战 略 ， 使 其 朝 着 最 能 盆 利 的 方向 发 展 ， 并 提供 及 时 准确 的 数据 、 场 景 建 模 、 浅 显 易 懂 的 报告 
等 ; 预测 分 析 ， 通 过 发 现 细微 的 模式 关联 ， 开 发 和 部 署 预测 模型 ， 以 优化 决策 制定 ; 分 析 决 策 
管理 ， 一 线 业 务 员工 可 利用 该 系统 ， 与 每 位 客户 进行 互动 ， 从 中 获取 丰富 信息 ， 提 高 业务 成 
绩 ; 风险 管理 ， 在 合理 的 前 提 下 ， 利 用 智能 的 风险 管理 程序 和 技术 ， 制 定 规 避风 险 的 决策 。 


6.R 

R 语言 是 主要 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 。R 目前 由 “R 开发 核心 团队 ” 负 
责 开 发 ， 它 是 基于 S 语言 的 一 个 GNU MA, 语法 来 自 Scheme， 所 以 也 可 以 当 作 S 语言 的 一 
种 实现 ， 虽然 R 主要 用 于 统计 分 析 或 者 开发 统计 相关 的 软件 ， 但 也 可 用 作 和 矩阵 计算 ， 其 分 析 
速度 堪 比 GNU Octave 甚至 MATLAB。R 主要 是 以 命令 行 操作 ， 网 上 也 有 几 种 图 形 用 户 界面 
可 供 下 载 。R 内 建 多 种 统计 学 及 数字 分 析 功 能 ， 还 能 透 过 安装 套件 (Packages) 增强 。 


7. NumPy、SciPy、matplotlib 等 Python 科学 计算 平台 

Python 是 一 种 面向 对 象 的 、 动 态 的 程序 设计 语言 ， 它 具有 非常 简洁 而 清晰 的 语法 ， 既 
可 以 用 于 快速 开发 程序 脚本， 也 可 以 用 于 开发 大 规模 的 软件 ， 特 别 适合 于 完成 各 种 高 层 任 
务 。 随 着 NumPy, SciPy, matplotlib 等 众多 程序 库 的 开发 ，Python 越 来 越 适合 用 于 科学 计算 。 
NumPy 是 一 个 基础 科学 的 计算 包 ， 包括: 一 个 强大 的 N 维 数组 对 象 封装 了 C++ 和 Fortran 代 
码 的 工具 、 线 性 代数 、 傅 立 叶 转换 和 随机 数 生 成 函数 等 其 他 复杂 功能 的 计算 包 。SciPy 是 一 
个 开源 的 数学 、 科 学 和 工程 计算 包 ， 能 完成 最 优化 、 线 性 代数 、 积 分 、 插 值 、 特 殊 函 数 、 快 
速 傅 里 叶 变 换 、 信 和 号 处 理 和 图 像 处 理 、 常 微分 方程 求解 等 计算 。matplotlib 是 Python 最 著名 
的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 相似 的 命令 API， 十 分 适合 交互 式 制图 ， 它 也 可 以 
方便 地 用 作 绘 图 控件 ， 骨 入 GUI 应 用 程序 中 。 


2.1.2 ”本 书 使 用 的 工程 计算 平台 


MATLAB, Mathematica, Maple, SPSS 等 软件 功能 齐全 、 界 面 友好 ， 同 时 内 含 多 种 强 
大 的 软件 包 ， 但 价格 昂贵 ， 它 们 都 是 商业 化 软件 ，GNU Octave, R 和 Python 科学 计算 包 作 
为 开源 免费 的 工程 计算 平台 ， 会 是 不 错 的 选择 。 

本 书 选择 R 和 Python 科学 计算 包 作 为 工程 计算 平台 ，Python 和 R 都 能 在 多 种 操作 系统 
平台 上 运行 。Python 是 一 种 非常 流行 的 脚本 语言 ， 用 户 较 多 ， 容 易 掌握 ， 也 有 成 熟 并 行 计 算 
框架 dispy 等 ， 测 试 成 功 的 单机 机 器 学 习 算法 稍 加 修改 就 能 应 用 于 大 规模 分 布 式 计算 的 工程 
之 中 。 正 是 因为 Python 具有 如 此 之 多 的 优点 ，Google 内 部 也 经 常 使 用 它 。R 语言 内 置 大量 统 
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计 分 析 包 ， 能 访问 部 分 系统 函数 ， 核 心 为 解释 执行 的 语言 ， 大 部 分 用 户 可 见 的 R 函数 由 及 语 
言 本 身 编写 ， 出 于 效率 原理 ， 计 算 密集 型 任务 通过 在 运行 时 链接 与 调用 C、C++、FORTRAN 
代码 完成 。 此 外 ， 通 过 Repp 能 把 丰富 的 R 环境 与 C/C++ 等 结合 ,将 R 的 API 与 数据 对 象 封 
装 成 类 以 及 类 的 方法 ， 供 外 部 C++ 程序 调用 。 


22 计算 平台 的 配置 


本 章 将 以 Windows 平 台 和 Linux 平 台 为 例 ， 讲 解 R 和 Python 科 学 计算 平台 的 配置 。 
Python 和 R 具有 跨 平 台 运 行 的 特点 ，Windows 平 台 编写 的 Python 和 R 代码 只 需 修正 兼容 性 
问题 即 可 正常 运行 在 类 UNIX 平台 上 ， 如 : 中 文字 符 的 UTF8 与 GBK 转换 、Windows 系统 
与 类 UNIX 平台 的 文件 路 径 差异 等 。 


2.2.1 Numpy 等 Python 科学 计算 包 的 安装 与 配置 
Python 科学 计算 包 有 两 种 安装 方式 ， 即 : 分 别 安装 科学 计算 平台 内 的 软件 包 和 安装 
WinPython 集成 计算 包 。 如 果 是 开发 环境 ， 建 议 使 用 WinPython。 


1. 分 别 安装 科学 计算 平台 内 的 软件 包 

先 安装 Python， 关 于 它 的 版 本 ， 推 荐 使 用 2.7 版 本 ， 然 后 安装 NumPy、SciPy matplotlib 
等 Python 软件 包 ， 它 们 都 有 Windows 系统 下 的 安装 包 。 

Python 安装 包 的 下 载 页 面 为 http://www.python.org/download/， 选 择 2.7 版 本 的 Windows 
安装 可 执行 文件 下 载 即 可 。 

NumPy 安装 包 下 载 页 面 为 https://pypi.python.org/pypilnumpy， 下 载 Windows 版 本 的 安 
装 可 执行 文件 即 可 。 

SciPy 安装 包 下载 页 面 为 https://pypi.python.org/pypi/scipy/， 该 软件 包 目 前 没有 Windows 
版 本 的 安装 执行 文件 ， 要 用 传统 的 Python 安装 第 三 方 软件 包 的 方式 安装 ， 将 安装 包 下 载 解 
压 ， 然 后 在 命令 行进 入 解压 目录 ， 输 入 以 下 命令 : 

python setup.py install 


Matplotlib 4X f/F 6165 F 2X 91 rfj Jy http://matplotlib. 
org/downloads.html, FX Windows 版 本 的 安装 可 执 
行文 件 即 可 ,注意 应 下 载 Latest stable version 对 应 的 


Downloads 


1.3.0 — Latest stable version 


matplotlib- 1.3.0.1 















matplotlib- 1.3.0. md64-py2.6.exe 












软件 包 。Windows 版 本 的 安装 可 执行 文件 通常 命名 格 有 
" 3 Ü.win amd64-py3. iexe 












s- pY 


Matplotlib 为 例 ， 打 开 其 下 载 页 面 ， 如 图 2-1 所 示 。 

假设 计算 机 的 操作 系统 是 32 位 ，Python 版 本 号 
为 27， 则 下 载 安装 matplotlib-1.3.0.win32-py2.7.exe， 
如 果 操 作 系统 是 64 位 的 ，Python 版 本 号 为 2.7， 则 下 图 2-1 Matplotlib 下 载 页 面 


matplotlib 





式 为 : 产品 名 称 + 平 台 名 称 +CPU 型 号 + 版 本 号 。 以 e matplotiib 
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载 安装 matplotlib-1.3.0.win-amd64-py2.7.exe。 
在 类 UNIX 平 台 上 (以 UBUNTU 为 例 )， 可 使 用 下 面 的 命令 安装 Python 及 相关 科学 计算 包 : 


sudo apt-get install python-numpy python-scipy python-matplotlib ipython 
ipython-notebook python-pandas python-sympy python-nose 


2. 安装 WinPython 集成 计算 包 

WinPython 集成 计算 包 和 集成 了 Numpy 等 第 三 方 Python 科学 计算 库 ， 在 winpython. 
sourceforge.net 下 载 并 安装 WinPython 后 ，Numpy 等 计算 库 和 Python 2.7 会 一 同 被 安装 。 此 
外 ，WinPython 附带 一 款 非 常 不 错 的 IDE 开发 调试 环境 : Spyder， 如 图 2-2 所 示 是 Spyder 的 
界面 截图 。 


5 4 -07-25 

6import numpy as np 

7limport math 

8import matplotlib.pyplot as plt 
9 








10 [Were T vs 

11class Mplannliner: [Basie 由 
12 def init (self): NE BEER E) 3 
13 self.b-1 | nda i 
14 self.a0-0.1 
15 self.a-0.0 
self.r-20.0 ||idata 1.6.1, guiqwt 2.3.0 


|| infor 
|| Imported NumPy 1.7.31, SciPy 9.12.0, Matplotlib 1.2.1 + gu 


Type "scientific" for more details. 


self.expect e-0.05 
self.traincount-100 | 
self testpoint-[] x 


x asc ciel M T E a EEEE T, Conaola: | y 
Permissions: RM ^ End-of-lines: CRLF Encoding: UTF-8 ine: Colum 1 Memory: 21 X 


图 2-2. Spyder 界面 





在 图 2-2 所 示 的 界面 中 ， 右 上 和 角 是 类 似 于 MATLAB 的 “工作 空间 ”， 可 很 方便 地 观察 
和 修改 变量 (包含 多 维 数 组 ) 的 值 ， 同 时 还 拥有 方便 用 户 的 智能 代码 (Call-Tips 和 Auto- 
Complete) 功能 ， 如 图 2-3 所 示 。 

TE IDE 开发 窗口 下 方 的 Console 栏 可 以 使 用 pdb (类 似 于 CC 语言 的 GDB 调试 工具 ) 调试 
Python 代码 ， 也 可 以 通过 Spyder 的 调试 菜单 进行 调试 。 下 面 是 pdb 调试 工具 的 使 用 帮助 : 


>>> debugfile(r'K:\book_prog\zxecf.py', wdir=r'K:\book prog') 
> k:\book progNzxect.py(7)«module»() 
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-> import matplotlib.pyplot as plt 
(pdb) help 
Documented commands (type help «topic»): 


EOF bt cont enable jump pp run unt 

a c continue exit 1 可 s until 
alias cl d h list quit step up 
args clear debug help n e tbreak w 

b commands disable ignore next restart u whatis 
break condition down j p return unalias where 








7import matplotlib.pyplot as plt 
8x -[1,2,3,3,6,12,11] 
-[3,5,8,5,12,26,20] 
























.1500 32 bit (Intel]] on win32 
more information 







* guidata 1.6.1, guiqwt 2.3.0 









图 2-3 智能 代码 功能 


常用 的 pdb 调试 命令 如 下 : 

O h(elp): 打印 当前 版 本 pdb 可 用 的 命令 。 

口 disable/enable: 禁用 /启用 断 点 。 

口 n(ext): 让 程序 运行 下 一 行 。 

O c(ont(inue)): 让 程序 正常 运行 ， 直 到 遇 到 断 点 。 

O jump): 让 程序 跳 转 到 指定 的 行 数 。 

O b(reak): 设置 断 点 ， 例 如 “b 23”， 就 是 在 当前 脚本 的 23 行 打上 断 点 ， 函 数 名 也 可 作 
为 参数 。 

O condition: 设置 条 件 断 点 。 下 面 语句 就 是 对 第 5 个 断 点 加 上 条 件 x>=8: 


(Pdb) condition 5 x>=8 


口 cl(ear): 清除 指定 参数 的 断 点 或 所 有 断 点 。 
口 p: 打印 某 个 变量 。 比 如 : 


(Pab) p -file 
u' ./pic/dog.jpg' 


口 ! : 感叹 号 后 面 跟着 语句 ， 可 以 直接 改变 某 个 变量 。 
O q(uit): 退出 调试 。 
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综 上 所 述 ， 在 Spyder 的 帮助 下 ， 能 更 高 效 地 开发 与 调试 Python 代码 ， 因 此 笔者 推荐 
在 开发 环境 中 安装 WinPython， 方 便 快 捷 ， 有 利于 机 器 学 习 算 法 代码 的 编写 。 此 外 ， 安 装 好 
WinPython 后 ， 请 在 windows 操作 系统 的 “开始 一 程序 一 WinPython 一 WinPython Control 
Panel” 中 进行 注册 。 


2.2.2 OpenCV 安装 与 配置 


OpenCV 是 Intel 开源 计算 机 视觉 库 ， 它 由 一 系列 C 函数 和 少量 C++ 类 构成 ， 实 现 了 图 像 
处 理 和 计算 机 视觉 方面 的 很 多 通用 算法 。OpenCV 拥有 包括 300 多 个 C 函数 的 跨 平台 的 中 高 
JZ API。 它 不 依赖 于 其 他 的 外 部 库 (尽管 也 可 以 使 用 某 些 外 部 库 )， 对 工程 应 用 来 说 ，OpenCV 
是 一 个 非常 好 的 计算 平台 ， 因 为 它 遵守 BSD 开源 协议 ， 对 非 商 业 应 用 和 商业 应 用 都 是 免费 。 

OpenCV 的 主要 功能 有 : 图 像 数 据 操 作 ， 图 像 / 视 频 的 输入 输出 ， 和 矩阵 /向 量 数据 操作 
及 线性 代数 运算 ， 支持 多 种 动态 数据 结构 、 基 本 图 像 处 理 、 结 构 分 析 、 摄 像 头 定 标 、 运 动 分 
析 、 目 标识 别 、 基 本 的 GUI 和 图 像 标注 。 而 且 ，OpenCV 提供 了 官方 的 Python 接口 ， 其 使 
用 方法 和 C 语言 接口 基本 一 致 ， 只 是 一 些 函 数 和 结构 体 可 能 会 有 不 同 。 另 外 ， 函 数 通 过 参数 
来 返回 值 时 一 次 会 返回 多 个 值 。 

在 Windows 上 下 载 安装 OpenCV 的 可 执行 文件 后 可 直接 运行 ， 下 载 页 面 为 http://openev. 
org/downloads.html。 

其 在 Linux 平台 上 的 安装 方式 在 OpenCV 官网 上 有 介绍 ， 有 具体 安装 顺序 如 下 : 

1) 安装 基本 软件 包 。GCC 44x 或 更 高 版 本 、CMake 或 更 高 版 本 、Git、GTK+H2.x 或 更 高 版 
Æ, including headers (libgtk2.0-dev), pkgconfig, Python 2.6 或 更 高 版 本 、Numpy 1.5 或 更 高 版 本 、 
python-dev、python-numpy、ffinpeg 或 libav 开发 包 、ibavcodec-dev libavformat-dev, 、libswscale-dev。 

2) 安装 可 选 软件 包 。libdc1394 2.x, libjpeg-dev, libpng-dev, libtiff-dev, libjasper-dev.. 

3) 在 http://opencv.org/downloads.html 下 载 其 源 代 人 码 ， 解 压 后 ， 进 入 目录 以 源 代 码 编译 
方式 安装 OpenCV., 





$cd -/opencv 

$mkdir release 

$cd release 

$cmake -D CMAKE BUILD TYPE-RELEASE -D  CMAKE INSTALL PREFIX-/usr/local .. 
$make 

$sudo make install 


OpenCV 官方 提供 了 Python 绑 定 库 ， 以 Python2.7 为 例 讲 述 了 安装 绑 定 库 的 方法 ， 在 
Windows 下 ， 将 它 复 制 到 Python 的 目录 下 ， 将 opencv\build\python\2.7 下 的 cv2.pyd 文 件 复 
制 到 python-2.7.5\Lib\site-packages 目录 下 即 可 。 在 Linux 下 安装 了 Python 后 ， 要 确保 usr/lib/ 
python2.7/site-packages 下 有 cvpy 和 cv2.so 文件 ， 如 果 没 有 ， 将 这 两 个 文件 复制 过 来 即 可 。 
2.23 mpy 安装 与 配置 

mlpy 是 基于 NumPy/SciPy 和 GSL 构建 的 Python 模块 ， 它 提供 了 高 层 函 数 和 类 ， 人 允许 
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使 用 少量 代码 来 完成 复杂 的 分 类 、 特 征 提取 、 问 归 、 聚 类 等 任务 。mply 为 免费 软件 ， 建 立 在 
GPL3 开源 协议 之 上 。 

mlpy 在 Windows 下 的 安装 方式 较 简 单 ， 可 以 直接 在 下 面 网 址 下 载 可 执行 文件 安装 : 

http://sourceforge.net/projects/mlpy/files/ 

在 类 Linux 平台 上 ， 其 安装 方法 稍稍 复杂 一 些 ， 以 Linux, OSX 和 FreeBSD 为 例 ， 安 装 
配置 mljpy， 需 要 先 安装 配置 好 以 下 软件 : 

Li GCG 

O Python 且 版 本 >= 2.6 或 为 3.X 

口 NumPy 且 版 本 >= 1.3.0 

口 SciPy 且 版 本 >= 0.7.0 

O GSL HWA >= 1.11 

然后 ， 在 上 面 网 址 中 找到 mpy 源 代码 包 下 载 ， 并 解压 安装 。 假 设 GSL 头 文件 和 库 文 件 
没有 安装 在 系统 的 标准 位 置 ， 在 这 种 情况 下 ，mply 的 安装 方式 如 下 : 


$python setup.py build ext --include-dirs-/path/to/header --rpath-/path/to/lib 
$python setup.py install 


如 果 GSL 安装 在 标准 位 置 ， 则 只 需要 运行 上 述 命令 中 的 最 后 一 行 。 


2.24 BeautifulSoup 安装 与 配置 

BeautifulSoup 是 用 Python 写 的 一 个 HTML/XML 的 解析 器 ， 它 可 以 很 好 地 处 理 不 规范 标 
记 ， 并 生成 剖析 树 ， 通 常用 来 分 析 “ 疏 虫 ” 抓 取 的 Web 文档 ， 或 者 直接 充当 部 分 “ 疏 虫 ”的 
角色 。 对 于 不 规则 的 HTML 文档 ， 有 补 全 功能 。 有 了 它 ， 解 析 与 分 类 网 页 就 方便 多 了 ， 节 省 
了 开发 者 的 很 多 时 间 和 精力 。 

安装 BeautifulSoup 很 简单 ， 在 Windows 平 台 和 Linux 平 台 上 都 是 使 用 的 传统 第 三 方 
库 安 装 方式 。 首先 下 载 BeautifulSoup 源码 ， 其 官网 为 : http://www.crummy.com/software/ 
BeautifulSoup/。 

.然后 解压 后 运行 以 下 命令 : 
python setup.py install 


此 外 , 在 UBUNTU 下 还 可 以 使 用 系统 包 管 理 器 安装 。 


$ apt-get install python-bs4 


2.2.5 Neurolab 安装 与 配置 

NeuroLab 是 一 个 简单 而 强大 的 、 用 Python 编写 的 神经 网 络 库 ， 包 括 基础 神经 网 络 、 训 
练 算法 ， 并 具有 弹性 的 构架 ， 可 创建 其 他 网 络 ， 它 用 纯 Python 和 numpy 写成 。API 的 使 用 
与 MATLAB 的 神经 网 络 工 具 箱 类 似 ， 具 有 弹性 的 网 络 配置 和 学 习 算 法 ， 可 以 改变 神经 网 络 
和 学 习 算 法 的 类 型 、 训 练 、 误 差 、 初 始 函 数 和 激活 函数 等 神经 网 络 参 数 。 
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Windows 和 Linux 下 的 安装 方式 如 下 。 

首先 在 下 面 的 页 面 下 载 Neurolab : 
http://code.google.com/p/neurolab/downloads/list 
然后 解压 后 运行 如 下 命令 : 


python setup.py install 


22.06 R 安装 与 配置 


R 的 原始 码 可 自由 下 载 使 用 ， 也 有 已 编译 的 执行 档 版 本 可 以 下 载 ， 可 在 多 种 平台 下 运 
行 ， 包 括 类 UNIX (包含 FreeBSD 和 Linux), Windows 和 MacOS. 

WINDOWS 安装 方式 如 下 。 

首先 访问 其 官网 下 载 页 面 : 

http://ftp.ctex.org/mirrors/CRAN/ 

然后 下 载 安装 可 执行 文件 安装 即 可 。 

UBUNTU 下 的 安装 方式 如 下 : 


$ sudo apt-get update 
$ sudo apt-get install r-base 
$ sudo apt-get install r-base-dev 


2.3 小结 


“不 要 重复 造 轮子 ”( Stop Trying to Reinvent the Wheel)， 这 可 能 是 每 个 软件 工程 师 人 行 时 
被 告知 的 第 一 条 准则 。 在 轮子 适合 “机 器 学 习 ” 这 人 台 车 的 情况 下 ， 机 器 学 习 算 法 才能 跑 得 更 
好 ,适合 的 科学 计算 平台 就 是 机 器 学 习 的 “轮子 ”。 

笔者 认为 ， 作 为 机 器 学 习 这 驾 马 车 的 “ 轮 予 ”应 该 具备 以 下 特征 : 

口 开源 免费 ， 且 开源 协议 友好 ， 例 如 : LGPL 协议 或 BSD 协议 ， 这 样 更 有 利于 商业 应 用 。 

口 平台 有 文档 ， 接 口 规 范 ， 能 实际 代码 用 例 最 好 。 

口 配置 简单 灵活 ， 支 持 的 操作 系统 平台 多 ， 运 行 速 度 快 。 

口 代码 结构 清晰 、 简 单 ， 便 于 使 用 者 修改 这 个 “轮子 ”， 通 俗 地 说 : 移植 性 强 。 

本 书 采 用 的 计算 平台 在 本 章 都 一 一 列 出 其 安装 和 配置 方法 。 算 法 是 一 种 计算 思维 的 描 
述 ， 万 变 不 离 其 宗 ， 好 的 工具 原理 都 差不多 。 

也 许 随 着 时 间 的 推移 ， 算 法 在 改进 ， 更 好 的 “轮子 ”将 出 现 ， 所 以 不 一 定 采 用 本 书 上 所 
写 的 这 些 平台 作为 机 器 学 习 实 验 和 应 用 的 工具 ， 但 有 一 条 原则 : 功能 强大 的 计算 平台 不 一 定 
适合 所 有 的 工程 ， 一 切 以 适用 为 准 。 
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计算 平台 应 用 实例 


3.1 Python 计算 平台 简介 及 应 用 实例 


目前 ， 科 学 计算 平台 很 多 ， 在 本 书 中 ， 使 用 Python 编写 的 机 器 学 习 算 法 用 到 的 计算 平 
台 有 : Numpy 等 科学 计算 包 、OpenCYV 的 Python 绑 定 库 、mlpy 机 器 学 习 库 、BeautifulSoup 
网 页 解析 库 、Neurolab 神经 网 络 库 等 ， 所 有 平台 均 为 开源 免费 软件 。 本 章 将 讲解 这 些 计算 平 
台 的 操作 ， 并 解析 一 些 基 础 实例 应 用 。 


3.1.1 Python 语言 基础 

1989 年 圣诞 节 期 间 ， 吉 多 ' 范 罗 苏 姆 为 了 打发 假日 时 间 ， 决心 开发 一 个 新 的 脚本 解释 
程序 ， 作 为 ABC 语言 的 一 种 继承 ， 就 这 样 ，Python 在 吉 多 手中 诞生 了 。Python Bi TE TE 
学 是 优雅 、 明 确 、 简 单 。Python 提供 了 丰富 的 API 和 工具 ， 使 程序 员 能 使 用 C 语言 CH, 
Cython 编写 扩充 模块 .Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 中 。 此 外 ， 
很 多 人 把 Python 作为 一 种 “胶水 语言 ”使 用 ,用 它 将 其 他 语言 编写 的 程序 进行 集成 和 封装 。 

Python 包含 了 一 组 完善 而 且 容 易 理解 的 标准 库 ， 能 够 轻松 地 完成 很 多 常见 的 任务 ， 且 代 
码 语法 简洁 、 清 晰 ， 使 用 缩 进 定义 语句 块 ， 具 备 很 高 的 可 读 性 。 由 于 Python 语言 具有 简洁 、 
易 读 以 及 可 扩展 性 ， 在 国内 外 用 Python 做 科学 计算 的 研究 机 构 、 商 业 公司 日 益 增多 ， 比 如 : 
三 大 经 典 科学 计算 库 Numpy、SciPy 和 matplotlib 均 扩 展 了 Python, ilii Python 可 以 轻松 完 
成 快速 数组 处 理 、 数 值 运 算 和 绘图 任务 。 


1. Python 基本 数据 类 型 
Python 是 解释 运行 的 动态 语言 ， 解 释 器 的 提示 符 为 “>>>”。Python 的 基本 数据 类 型 包 
括 数字 型 、 字 符 串 型 和 列表 ， 此 外 还 可 以 用 类 型 表示 函数 、 模 块 、 类 型 本 身 、 对 象 的 方法 、 
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编译 后 的 Python 代码 、 运 行 时 信息 等 。 


1) 数字 型 ， 可 将 Python 作为 一 个 计算 器 使 用 ， 在 计算 过 程 中 可 使 用 “+”( 加 入 “一 ” 


QR). "*" GRO, */" (RO. "C". 70" BUR. "96" RR) 等 操作 符 。 此 外 ，Python 用 “#” 表 
示 其 后 的 内 容 是 注释 。 下 面 代码 演示 了 其 基本 的 计算 功能 和 注释 的 使 用 。 


>>> 2+2 

4 

>>> 4 本 行 是 注释 
. 2+8 

10 

sps (50-5*6)72 


Python 使 用 “=” 进 行 赋值 操作 ， 赋 值 操作 不 会 返回 任何 结果 ， 也 可 以 在 同一 行 中 连接 


赋值 ， 赋 值 语句 将 从 右 到 左 依次 完成 赋值 。 下 面 的 代码 对 变量 进行 复数 和 实数 的 赋值 。 


>>> C=5.2-6.5j### 复数 
25> C 

(5.2-6.53) 

>>> c.real### 实 部 

5.2 

>>> c.imag##t 虚 部 
-6.5 
人 


变量 在 使 用 前 ， 要 处 于 定义 状态 ( 即 已 经 赋值 )， 否 则 会 出 错 。 下 面 代 码 试图 对 未 定义 的 


变量 myx 进行 操作 结果 出 错 了 。 


>>> myx # 访问 未 定义 的 变量 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

NameError: name 'myx' is not defined 


在 Python 计算 中 可 使 用 浮 点 数 。 如 果 在 计算 过 程 中 出 现 了 浮 点 数 ， 则 整 型 会 自动 转换 


为 浮 点 型 计算 ; 如 果 全 是 整 型 ， 则 计算 结果 也 为 整 型 。 在 下 面 例子 中 ， 第 一 行 代码 两 个 操作 
数 均 为 整 型 ， 返 回 的 结果 并 不 会 精确 为 整 型 ;而 在 第 二 行 代码 中 ， 第 一 个 操作 数 7.0 为 浮 点 


型 ， 


返回 的 结果 为 浮 点 数 。( 以 下 代码 请 在 Python 解释 器 下 运行 )。 


>5> 773 

2 

ss T6 
2.3333333333333335 


复数 运算 使 用 (realtimagj) 的 形式 ， 也 可 使 用 complex(realimag) 创建 一 个 复数 对 象 ， 其 


中 real 表示 实 部 ，imag 表示 虚 部 。 下 面 是 一 些 复数 计算 的 例子 。 
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>>> 2467 
(2+6j) 
>>> 2-6J 
(2=6j.) 
>>> 1j * complex(0,1) 
(-1+0j) 
>>> 341j*3 
(3+3j) 

>>> a=1.5+0.5j 

>>> a.real 

1:5 

>>> a.imag 

0.5 


变量 “_” 表 示 刚 计算 的 结果 。 下 面 代码 通过 计算 (3+2 ) x 6 演示 了 该 变量 的 使 用 。 


s» _*6 


30 

2) 字符 串 型 。Python 的 字符 串通 常用 单 引 号 和 双 引 号 包围 的 形式 表示 ， 通 过 print 语句 
可 将 字符 串 输出 到 输出 设备 中 (默认 情况 下 输出 到 屏幕 )。 此 外 ，Python 2.0 及 以 后 的 版 本 支 
持 Unicode 字符 串 ， 中 文字 符 一 般 使 用 Unicode 编码 (国际 组 织 制定 的 容纳 世界 所 有 文字 和 
符号 的 字符 编码 方案 ， 用 0 ~ 0x10FFFF 映射 字符 ， 最 多 可 以 容纳 1 114 112 个 字符 )， 在 前 
HI u 表示 后 面 是 Unicode 字符 串 。 下 面 的 代码 演示 了 Unicode 字符 的 定义 与 使 用 、 字 符 串 
的 输出 等 操作 。 

>>> 'spam eggs' 

'spam eggs' 

>>> '"Yes," he said.' 

'"Yes," he said.' 

>>> print u" 你 好 " 

你 好 

>>> print u" 机 器 学 习 ， 

机 器 学 习 

Python 的 字符 串 可 视 为 列表 (数组 ), 使 用 “[ 索引 ]” 的 方式 能 对 它 进 行 切 片 操作 (R 
引 从 0 开始 ), 使 用 “+” 可 对 字符 串 进行 连接 。 下 面 的 代码 演示 了 字符 串 的 连接 、 切 片 等 
操作 。 


>>> word = 'Help' + 'A' 

>>> word 

'HelpA' 

>>> '«' + word*5 + '»' 
'«HelpAHelpAHelpAHelpAHelpAs»' 


>>> word[-2:] # 最 后 2 个 字符 

'pA' 

>>> word[:-2] # 除去 最 后 2 个 字符 以 外 的 字符 
'Hel' 


ww ai bot. com H1 BH BL B BL O. 


第 3 章 ， 计 算 平台 应 用 实例 $e 21 


Python 的 字符 串 可 使 用 转 义 字符 ， 方 法 是 在 特殊 字符 前 加 上 “\”。 主 要 的 转 义 字符 有 : 
v Hp 

v XU 

\a ”发 出 系统 响 铃 声 

\b” 退 格 符 

Ww ”换行 符 

\t ”横向 制 表 符 

\ ”纵向 制 表 符 


iro HE% 
Vo 换 页 符 
Ww 


\o “八进制 数 代表 的 字符 

“十 六 进 制 数 代表 的 字符 

\000 终止 符 ，\000 后 的 字符 串 全 部 忽略 

此 外 ，Python 的 字符 串 相 比 其 他 程序 语言 多 了 一 种 描述 方式 ， 就 是 用 3 个 引号 标示 字符 
串 ， 其 功能 是 将 字符 串 内 容 原 样 输出 ， 如 果 字 符 串 本 身 包括 换行 ， 则 输出 换行 ， 如 果 包 括 特 
殊 字 符 ， 则 字符 串 无 需 使 用 转 义 字符 。 下 面 的 代码 演示 了 中 文字 符 串 的 输出 、 转 义 字符 的 使 
用 、 字 符 串 切片 、 统 计 长 度 、 三 引号 使 用 等 操作 。 


>>> 'doesnV't' 

"doesn't" 

>>> "\"Yes,\" he said." 

'"Yes," he said.' 

>>> print u" 你 好 ,Python\n 机 器 学 习 " 
你 好 ,Python 

机 器 学 习 

>>> print u""" 你 好 ,Python 

. . 。 机 器 学 习 n 

你 好 ,Python i 
机 器 学 习 

>>> mystr- un 你 好 ,PythonNn 机 器 学 习 ， 
>>> print mystr 

你 好 , Python 

机 器 学 习 

»»» print mystr[:5] 

你 好 PY 

>>> print mystr[3:5] 

Py 

>>> len(mystr)iHHilen 函数 计算 字符 串 长 度 
14 


Python 字符 串 的 三 引号 表示 方式 意义 重大 ， 用 它 可 以 在 CGI (CGI 允许 Web 服务 器 执行 
外 部 程序 ， 并 将 它们 的 输出 发 送 给 Web 浏览 器 ) 程序 中 轻松 输出 HTML 代码 。 下 面 是 CGI 
的 “Hello World" fT: 
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*t!/usr/bin/env python 

print "Content-Type: text/html" 
print 

print ""«hpmls 

«body» 

«h2»Hello World!«/h2» 

«/body» 

</html> 


3) 列表 。Python 可 将 不 同类 型 (包括 复合 类 型 本 身 ) 的 值 组 成 复合 类 型 ， 列 表 就 是 复合 
类 型 之 一 。 与 字符 串 相同 ， 列 表 可 以 使 用 切片 操作 ， 其 索引 也 是 从 0 开始 的 。 此 外 ， 统 计 列 
表 的 长 度 使 用 len 函数 ， 使 用 “* ”将 生成 新 列表 ， 其 元 素 由 源 列表 重复 填充 ， 使 用 “+” 可 
连接 列表 。 下 面 的 代码 演示 了 列表 的 定义 、 连 接 、 重 复 填 充 、 切 片 、 统 计 长 度 等 操作 。 


»»» a - ['hello', 'world', 100, 1234] 
>>> a 

['hello', 'world', 100, 1234] 

>>> a[:2] + ['-'，2*2]### 连接 列表 
['hello', *world', '—*, 4] 


»»» mylists[1,23,45] 

>>> mylist 

[1; 23, 45] 

>>> mylist*214HH 重复 填充 列表 
(i; 23y 1, 293, 45] 
>>> mylist[:2]iH 列表 切片 
[1, 23] 

55» x = [12, 13] 

sss y = [lip x, 14] 

>>> len(Yy)### 求 列表 长 度 


>>> y[1] 
[12, 132] 
>>> y[1] [0] 


列表 和 字符 串 也 可 称 为 序列 ， 序 列 由 若干 个 元 素 组 成 ， 每 个 元 素 的 先后 顺序 明确 ， 不 能 
更 改 。 


2. Python 语句 

1) 条 件 语句 。 让 语句 的 作用 是 判断 条 件 是 否 成 立 ， 如 果 成 立 ， 则 执行 后 面 的 语句 块 ; if... 
elif … elif 语 句 可 用 于 对 多 个 条 件 进 行 判 断 ， 并 执行 最 先 满足 条 件 的 语句 块 ; else 语句 表示 所 
有 条 件 都 不 成 立时 执行 。 下 面 的 例子 展示 了 证 语句 的 使 用 方法 ， 功 能 是 对 输入 数字 的 范围 进 
行 判断 ， 并 将 其 中 的 负数 转变 为 0。 

>>> X = int(raw input("Please enter an integer: ")) 

Please enter an integer: -10 


»»- If x < 0: 
* 2 
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print 'Negative changed to zero' 


, elif x == 

print 'Zero' 
, eli x mem ds 

print 'Single' 
. else: 


print 'More' 


Negative changed to zero 
下 面 例子 演示 了 判断 非 奇 偶数 。 
for x in range(1, 10): 
Xi e S 2 2- D 
print x, 'is an even number'. 


else: 
* loop fell through without finding a factor 
print x, 'is an odd number. ' 


is an even number 
is an odd number 
is an even number 
is an odd number 
is an even number 
is an odd number 
is an even number 
is an odd number 


2) 循环 语句 。for 语句 表示 循环 ， 它 与 C 语言 中 的 for 语句 略 有 不 同 。C 语言 的 for 语 
句 可 定义 步 长 和 终止 循环 条 件 ， 而 Python 的 for 语句 在 Python 的 序列 (列表 、 字 符 串 等 ) 中 
和 迭代， 每 次 只 操作 其 中 一 项 。 下 面 的 代码 在 单词 列表 中 和 迭代， 每 次 迭代 输出 单词 及 其 长 度 。 
>>> # Measure some strings: 
. words - ['cat', 'window', 'hello'] 


>>> for w in words: 
print w, len(w) 


(00 -30)U S UU b* 


cat 3 


window 6 

hello 5 

也 可 以 在 迭代 过 程 中 修改 序列 。 下 面 的 例子 运行 结果 是 在 列表 迭代 过 程 中 修改 了 列表 本 身 。 
»»»words = ['cat', 'window', 'defenestrate'] 


>>> for w in words[:]: 
if len(w) » 6: 
words.insert(0, w) 


>>> words 
['defenestrate', 'cat', 'window', 'defenestrate'] 


3) range 函数 。for 语 句 仅 能 在 列表 等 序列 中 进行 迭代 ， 从 表面 上 来 看 ， 它 比 C 语言 的 
for 循环 功能 弱 很 多 ， 其 实 不 然 ， 有 了 range 函数 ， 其 功能 远 比 C 语言 的 for 循环 强大 。range 
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函数 可 产生 符合 某 种 规律 的 列表 等 序列 。 下 面 代码 产生 0 ~ 9 共 10 个 数字 ,增长 步 长 为 1。 


>>> range(10) 
De $1, 2, 3, 4, 5, 6, 7, 8, 9] 


range 函数 还 可 以 产生 更 复杂 的 序列 ， 常 用 调用 格式 为 : 
range( 起 始 值 ， 终 止 值 ， 步 长 ) 
其 中 起 始 值 和 步 长 可 以 省 略 ， 起 始 值 默认 为 0， 步 长 默认 为 1。 


»»» range(5, 10) 

[5, 6, 7, 8, 91 

»»» range(0, 10, 3) 

IO; 3 Ep 9] 

>>> range(-10, -100, -30) 
[-10, -40, -70] 


下 面 的 代码 是 range 函数 与 for 语句 组 合 的 应 用 ， 输 出 列表 元 素 的 索引 及 值 。 


5258 2 D'Maty", 'had', 'à', 'Iittle', 'lamb'] 
»»» for i in range(len(a)): 
print i, a[i] 





0 Mary 

1 had 

2 a 

3 little 
4 lamb 


下 面 的 代码 完成 1 至 10 中 奇数 的 累加 。 


>>> mysum-0 

»»» for i in range(1,10,2): 
mysum-mysum-4i 

>>> mysum 

25 


4) break 与 continue, break 语句 结束 本 层 循 环 ，continue 语句 忽略 下 面 的 语句 继续 本 层 
的 下 次 循环 。 下 面 的 代码 使 用 break 语句， 查找 2 至 10 以 内 (不 含 10 ) 的 素数 ， 如 果 不 是 素 
数 ， 则 分 解 因数 。 


»»» for n in range(2, 10): 
for x in range(2, n): 
if & 9€ x ss 0: 
print n, 'equals', x, '*', n/x 
break 
if n==x+1: 
* loop fell through without finding a factor 
2 print n, 'is a prime number' 
2 is a prime number 
3 is a prime number 
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equals 2 * 2 
is a prime number 
equals 2 * 3 
is a prime number 
equals 2 * 4 
equals 3 * 3 


下 面 的 代码 使 用 了 continue 语句 ， 判 断 50 至 60 之 间 的 数 哪些 是 奇数 ， 哪 些 是 偶数 。 


>>> for num in range(50, 60): 


‘OO -10U0 Ae 


if num € 2 == Oz 
print "偶数 "num 
continue 


print " 奇数 ",num 
偶数 50 
奇数 51 
偶数 52 
奇数 53 
偶数 54 
奇数 55 
偶数 56 
奇数 57 
偶数 58 
奇数 59 


5) while 循环 。 在 while 循环 中 会 一 直 执行 后 面 的 语句 块 ， 直 到 条 件 不 满足 才 终 止 。 下 
面 的 代码 用 于 在 列表 中 循环 ， 并 输出 元 素 。 


>>> a-range(10) 
i-0 
>>> while i«10: 
print a[i], 

sas i-i41 

lOr 1, 2, 3, A, 5, 6G, 7, 8, 9] 

6) 函数 定义 。Python 使 用 def 关键 字 定 义 函 数 。 下 面 的 代码 定义 了 屏幕 输出 函数 show, 
参数 是 要 输出 的 内 容 。 


>>> def show(mess-"hello"): 
print mess 


Mn show() 

hello 

>>> show(" 机 器 学 习 ") 

机 器 学 习 

下 面 的 代码 定义 了 斐 波 那 契 数列 的 计算 函数 fib. 
>>> def fib(n): 


"""Print a Fibonacci series up to n.""" 
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as sU, l 

while a « n: 
print a, 
a, b -» b, a«b 


>>> fib(2000) 
01123588 13 21 34 55 89 144 233 377 610 987 1597 


3. Python 的 元 组 、 集 合 以 及 字典 
1) tuple 元 组 。tuple 元 组 类 似 列表 ， 不同 的 是 它 的 内 容 不 能 修改 。Python 元 组 的 定义 方 


式 是 使 用 圆 括号 包含 元 素 或 直接 列举 元 素 。 下 面 的 代码 将 定义 x 为 元 组 类 型 ， 当 对 x[0] (x 
的 第 一 个 元 素 ) 进行 修改 时 ，Python 解释 器 提示 错误 。 


3 x-—10, 20, 'learn' 

>>> x[0] 

10 

>>> X 

(10, 20, 'learn') 

$2» xl,Xx2,xX3-x 

>>> x1 

10 

2-2 x2 

20 

$55 353 

'learn' 

>>> x[0]-290 

Traceback (most recent call last): 
File "«stdin»", line 1, in «module- 

TypeError: 'tuple' object does not support item assignment 

>>> 


2) Sets 集合 。Python 使 用 方 括号 定义 Sets 集合 ， 集 合 的 特点 是 无 重复 元 素 ， 集 合 中 的 


元 素 无 先后 顺序 ， 也 不 能 用 索引 进行 管理 。 下 面 的 代码 定义 了 一 个 水 果 列表 ， 通 过 set 函数 
转换 为 集合 ， 去 除 重 复元 素 。 


>>> basket = ['apple', 'orange', 'apple', 'pear', 'orange', 'banana'] 
>>> fruit = set(basket) 

>>> fruit 

set(['orange', 'pear', 'apple', 'banana']) 


下 面 的 代码 通过 in 操作 检查 成 员 与 集合 的 关系 。 


>>> 'orange' in fruit ### 人 和 集合 类 是 否 有 成 员 'orange' 
True 

>>> 'crabgrass' in fruit### 集合 类 是 否 有 成 员 'crabgrass' 
False 


既然 是 集合 ,当然 能 对 它 进行 集合 的 数学 运算 。Python 集合 支持 union (联合 或 并 )、intersection 


( 交 )、difference ( 差 ) 和 sysmmetric difference (对 称 差 ) FHE, aA "-",. "|", *&", "^" 
操作 符 计 算 集 合 的 差 集 、 并 集 、 交 集 和 对 称 差 集 。 下 面 的 代码 演示 了 对 集合 a 和 的 运算 。 
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>>> a = set('abracadabra') 

>35 b = set('alacazam') 

>>> a 

set([^a', "r^p '"b', 'e', 'gq'T]) 

>>> a-b # 差 集 
aes "Qs "DIY 

>>> a | b # 并 集 
set Ul rr SE Ma Ms Ms 
-> # 交集 
set(['a', "e']) 

>>> a ^b # 对 称 差 集 
sSeti[!'z'. 'd!, "Lt, "m", 'gt*, t'y] 


3 ) Dictionaries F$, Dictionaries (字典 ) 是 一 种 散 列 结构 ， 可 理解 为 Hash ( 散 列 ) 类 型 。 
字典 由 若干 个 键 值 对 组 成 ， 键 值 对 是 一 种 映射 ， 一 个 键 对 应 于 一 个 值 。 键 值 对 由 两 个 部 分 组 
成 ， 第 一 部 分 是 键 ， 键 在 字典 中 必须 保持 唯一 ， 字 典 与 列表 和 元 组 不 同 ， 列 表 和 元 组 属于 序 
列 ， 元 素 以 先后 顺序 来 管理 ， 而 字典 的 元 素 是 以 键 为 单位 对 值 进行 管理 的 ; 第 二 部 分 为 值 ， 
值 与 键 一 一 对 应 ， 值 可 以 彼此 相同 。 

Python 使 用 花 括号 定义 字典 ， 使 用 类 似 索引 的 方式 存 取 值 ， 但 索引 为 键 。 此 外 ， 可 使 用 
del 操作 删除 键 值 对 ， 使 用 keys) 方法 返回 字典 变量 存储 的 所 有 键 。 下 面 的 代码 演示 了 一 个 
学 生 学 号 的 字典 变量 ， 以 及 如 何 对 学 生 信息 进行 删除 、 查 询 等 操作 。 

>>> tel = {" 张 三 ": 4098, "#0 ': 4139} 

>>> tel 


{'\xd5\xc5\xc8\xfd': 4098, '\xc0\xee\xcb\xc4': 4139) 
»»» tel['"-'] 


4098 

>>> del tel[' RZ '] 

s>> tel['Kkz '] 

Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 


KeyError: 'WMxd5NMxc5Nxc8 Nxfd' 
>>> tel.keys() 
['\xc0\xee\xcb\xc4'] 

>>> tel[' £4 ']=1000 

>>> tel.keys() 


['\xcd\xf5\xbb\xaa', '\xc0\xee\xcb\xc4'] 

>>> print tel.keys()[0] 

王 华 

上 面 代码 中 ,“\xcd” 等 为 汉字 在 Python 内 部 的 编码 。 
4. Python 类 


Python 语言 有 强大 的 面向 对 象 编程 能 力 。Python 和 C++ 等 语言 一 样 拥 有 类 机 制 ，Python 
类 的 定义 方式 如 下 : 
class 类 名 : 
# 类 成 员 变 量 
变量 A=A 初始 
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变量 B=B 初始 值 

# 下 面 定义 了 类 成 员 函 数 

def init (self, £&4k1, &3k2, ..., 参数 卫 ) : 
# 类 构造 函数 

def del (self): 
# 析 构 函数 

def 方法 1(self, 5% 1, 4% 2, ..., ZA n): 

# 类 的 方法 


下 面 的 代码 定义 了 一 个 复数 类 Complex， 同 时 定义 了 类 的 实例 变量 x， 最 后 输出 该 变量 
的 实 部 和 虚 部 。Complex 类 很 简单 ， 在 类 构造 函数 中 对 实 部 成 员 和 虚 部 成 员 进 行 赋值 。 


>>> class Complex: 


rz0 

i-0 

def init (self, realpart, imagpart): 
self.r - realpart 


iani self.i - imagpart 
552 x = Complex(3.0, -4.5) 
bpe gi; Xil 

(3.0, -4.5) 


5. Python 异常 处 理 
Python 的 异常 处 理 能 力 很 强大 ， 可 准确 反馈 出 错 信息 。 在 Python 中 ， 异 常 是 对 象 ， 可 
对 它 进行 操作 。 所 有 蜡 常 都 是 基 类 Exception 的 成 员 ， 从 基 类 Exception 继承 ， 在 exceptions 
模块 中 定义 。Python 异常 处 理 的 格式 如 下 : 
try : 
# 下 面 为 可 能 发 生 异 常 的 语句 块 


except 异常 类 型 : 
# 下 面 为 处 理 异 常 的 语句 块 
下 面 的 代码 将 检查 输入 是 否 为 有 效 数字 。 程 序 通 过 将 输入 转换 成 整 型 来 测试 是 否 为 数 
字 ， 如 果 不 是 数字 ，int 函数 将 触发 异常 ValueError， 异 常 处 理 程序 提示 “ 哦 ! 输入 不 是 有 效 
数字 ， 请 重新 输入 (Oops! That was no valid number. Try again...)”， 直 到 输入 正确 格式 的 数字 
后 ， 程 序 才 退 出 。 
>>> while True: 
try: 
x = int(raw input("Please enter a number: ")) 


break 
except ValueError: 
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print "Oops! That was no valid number. Try again..." 


前 面 演 示 了 异常 的 被 动 触发 ，Python 还 能 主动 触发 异常 ， 处 理 方式 为 : 先 通过 raise 语句 
抛 出 异常 ， 然 后 用 except 捕捉 异常 。 下 面 的 代码 演示 raise 主动 抛 出 NameError 异常 后 被 捕捉 ， 
输出 “An exception flew by!” 后 ， 继 续 抛 出 异常 ， 以 便 给 更 外 层 的 异常 处 理 函 数 继续 处 理 。 

22» try: 

EI raise NameError('HiThere') 
. except NameError: 


print 'An exception flew by!' 
raise 


An exception flew by! 

Traceback (most recent call last): 
File "«stdin»", line 2, in ? 

NameError: HiThere 


以 上 简要 介绍 了 Python 编程 语言 的 基本 语法 ， 它 和 C++ 有 几 分 相似 ， 有 一 定编 程 基础 
的 读者 应 该 都 能 看 懂 。Python 是 一 门 上 手 很 快 的 编程 语言 ， 它 与 其 他 语言 最 大 的 不 同 就 是 它 
区 分 语句 块 时 使 用 的 不 是 括号 ， 而 是 每 行 语句 前 面 的 空格 数量 。 因 此 ，Python 代码 非常 工整 
和 漂亮 ， 它 严格 遵守 代码 语句 块 的 缩 进 原则 ， 可 依靠 缩 进 判断 语句 块 的 范围 。 





3.1.2 Numpy 库 


本 书 中 介绍 的 机 器 学 习 算法 大 部 分 是 调用 Numpy 库 来 完成 基础 数值 计算 的 。 下 面 了 解 
一 下 Numpy 库 的 基本 使 用 方法 。 


1. ndarray 数组 基础 

Python 中 用 列表 保存 一 组 值 ， 可 将 列表 当成 数组 使 用 。 此 外 ，Python 有 array 模块 ， 但 
它 不 支持 多 维 数组 ， 无 论 是 列表 还 是 array 模块 都 没有 科学 运算 函数 ， 不 适合 做 和 矩 阵 等 科学 计 
算 。 因 此 ，Numpy 没有 使 用 Python 本 身 的 数组 机 制 ， 而 是 提供 了 ndarray 数组 对 象 ， 该 对 象 
不 但 能 方便 地 存 取 数 组 ， 而 且 拥 有 丰富 的 数组 计算 函数 ， 比 如 向 量 的 加 法 、 减 法 、 乘 法 等 。 

使 用 ndarray 数组 ， 首 先 需 要 导入 Numpy 函数 库 ， 可 以 直接 导入 该 函数 库 (本 节 频 繁 使 
用 Numpy 库 的 函数 ， 因 此 采用 这 种 方法 )。 


from numpy import * 
或 者 指定 导 和 人 库 的 别名 。 
import numpy as np 


下 面 正式 进入 Numpy 的 数组 世界 。 如 果 没 有 说 明 ， 所 称 数组 均 为 Numpy 的 数组 对 象 ， 
与 Python 的 列表 和 array 模块 无 关 。 

1) 创建 数组 。 创 建 数组 是 进行 数组 计算 的 先决 条 件 ， 可 通过 array) 函数 定义 数组 实例 
对 象 ， 其 参数 为 Python 的 序列 对 象 (比如 列表 )。 如 果 想 定义 多 维 数组 ， 则 传递 多 层 符 套 的 
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序列 。 例 如 下 面 这 条 语句 定义 了 一 个 二 维 数组 ， 其 大 小 为 (2,3 )， 即 共有 2 行 ， 每 行 各 3 列 。 
a = np.array([[ l., Ta, Ol, l -2., i., 2.11) 
上 面 语句 定义 了 如 表 3-1 所 示 的 数组 。 
表 3-1 二 维 数组 结构 


| 


接着 使 用 array() 函数 创建 一 个 〈2,3 ) 大 小 的 数组 变量 x。 


»»» from numpy import * 
sm x-armay(I[L Le, 0., D.],[ Wa Bl, 2.]]) 


以 刚才 定义 的 x 变量 为 例 ， 来 熟悉 ndarray 数组 对 象 的 主要 属性 。ndarray 数组 对 象 拥 有 
ndarray.ndim , ndarray.shape , ndarray.size , ndarray.dtype , ndarray.itemsize , ndarray.data 等 属性 。 


ndarray.ndim: 数组 的 维度 数 。 


>>> x.ndim 
2 


ndarray.shape: 数组 的 维 数 ， 返 回 的 格式 为 (nm), EP n 为 行 数 ，m 为 列 数 。 


>>> x.shape 
(2, 39 


ndarray.size: 数组 元 素 的 总 数 。 


2» size 
6 


ndarray.dtype: 数组 元 素 的 类 型 ， 比 如 : numpy.int32 ( 32 AA!) numpy.int16 ( 16 位 整 型 ) 
及 numpy.float64 ( 64 位 浮 点 型 )。 


>>> x.dtype 
dtype('float64') 


ndarray.itemsize: 数组 中 每 个 元 素 占 有 的 字 节 大 小 。 


>>> x.itemsize 


8 
ndarray.data: 数组 元 素 的 缓冲 区 。 


>>> x.data 
«read-write buffer for 0x0557EAEB8, size 48, offset 0 at 0x0561BAE0» 


下 面 是 一 个 关于 Numpy 的 ndarray 数组 的 例子 ， 演 示 了 ndarray 数组 的 基本 操作 。 
首先 ， 创 建 a 和 两 个 数组 对 象 。 其 中 ，a 对 象 使 用 Numpy 的 arange 函数 产生 了 等 差 序 
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列 数 组 ( Numpy 的 arange 函数 与 Python 的 range 函数 类 似 ， 其 参数 依次 为 开始 值 、 结 束 值 、 
步 长 )， 并 用 reshape 函数 创建 了 指定 形状 的 新 数组 。a 的 大 小 为 (3,5 ); b 的 大 小 为 (1,3 )。 


>>> a - arange(15).reshape(3, 5) 
>>> à 
array tti 0, 1, e 23; 4g, 
[ 5S. Ga To BS. SG]. 
[10, 442. 12, I3, IAI 
>>> 三 array([6, 7, 8]) 
>>> b 
array([6, 7, 8]) 


接着 读 取 a 和 的 主要 属性 ， 如 : shape. ndim, dtype, itemsize 等 。 此 外 ， 下 面 的 代码 
还 演示 了 type 函数 的 使 用 ，type 函数 会 返回 对 象 的 类 型 ， 对 于 ndarray 对 象 而 言 ， 其 类 型 为 


numpy.ndarray。 


>>> a.shape 
(3, 5) 

>>> a.ndim 

2 

>>> a.dtype.name 
*int32' 

>>> a.itemsize 
4 

>>> a.size 

15 

>>> type(a) 
numpy.ndarray 
>>> type(b) 
numpy.ndarray 


最 后 ， 对 a 和 b 对 象 重新 赋值 ， 以 便 进 一 步 了 解 ndarray 数组 的 元 素 类 型 。 下 面 分 别 演 
示 了 int32、float64 等 类 型 的 使 用 方法 ， 最 后 演示 了 不 常见 的 复数 作为 数组 元 素 (数组 c 的 元 
素 ) 的 情况 。 


»»» a = array( [2,3,4] ) 

2»»» a f 

array(I2, 3, 41) 

>>> a.dtype 

dtype('int32') 

s» b 2 array([1.2, 3.5, 5.11) 
>>> b.dtype 

dtype('float64') 


>>> c = array( [ [1,2], [3,4] 1], dtype-complex ) 
>>> C 
arrayt[[ 1.50.j, 20:3 ly 


[ 3.«0.3, 4.+0.31]) 


2) 特殊 数组 。Numpy 的 特殊 数组 主要 有 以 下 几 种 : 
O zeros 数组 : 全 零 数 组 ,元素 全 为 0， 使 用 zeros 函数 创建 。 
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O ones 数组 : 全 1 数组， 元 素 全 为 1， 使 用 ones 函数 创建 。 
O empty 数组 : 空 数组 ， 元 素 全 近似 为 0， 使 用 empty 函数 创建 。 
下 面 的 代码 依次 演示 了 全 零 数组 、 全 1 数组 、 空 数组 的 创建 方法 。 


>>> zeros( (3,4) ) 


arPay(lD0., Osr sp 0.1, 
Oss Qe dan 0.1; 
Eas Qu Dos Aal) 
>>> ones( (2,3,4), dtype-int16 ) 
asray ilii d. Ia Vi dls 
C ia Ir 21. Wz 
L D. 5e Xd. 
Dp 55 X7. $17 
Ee de 2e Xs 
[ 1, 1, 1, 1111, dtype-inti6b) 


»»» empty( (5,3) ) 
array ([[ .42185083e-299, 41906197e-299, 
.02082633e-300, 41971817e-299, 


1 1. .77420410e-300], 
[ 6 1. 
[ 5.77440917e-300, 5.77386233e-300, 
L 5 S. 
b T 9e 


.17379398e-300] , 
.77440917e-300], 
.77386233e-300], 
.77406740e-300]]) 


.77386233e-300, 77440917e-300, 
,42130399e-299, 77440917e-300, 


uuu u u 


3) 序列 数组 。 刚 才 已 经 提 到 过 arange 函数 ， 它 与 Python 的 range 函数 相似 ， 但 它 属于 


Numpy 函数 库 ， 其 参数 依次 为 开始 值 、 结 束 值 、 步 长 。 此 外 ， 还 可 使 用 linspace 函数 创建 等 
差 序 列 数组 ， 其 参数 分 别 为 起 始 值 、 终 止 值 、 元 素数 量 。 下 面 的 代码 分 别 演示 了 arange PA 
和 linspace 函数 的 用 法 。 


>>> arange( 10, 30, 5 
array([10, 15, 20, 25 
»»» arange( 0, 2, 0.3 
atrayt[ 0. , Q3, 0 
»»» linspace( 0, 2, 9 # 从 0 到 2，9 个 数字 

array([ 0. , 0.25, 5a 84. ds gy A25, 1.9. 17S; 2- Jj 
>>> x = linspace( 0, 2*pi, 100 ) # 从 0 到 2x*pi #100 AAF 


4) 输出 数组 。 可 使 用 print 输出 Numpy 的 数组 对 象 。 下 面 的 代码 是 一 维 数组 的 创建 和 


) 
) 
) 
4384 Mly — 22, 54 LBI 
) 
0 


输出 。 


>>> a = arange(6) # 一 维 数组 
š> print a 
[012 3 4 5] 


下 面 的 代码 是 二 维 数组 的 创建 和 输出 ， 从 输出 结果 可 清晰 地 看 出 b 的 大 小 为 ( 4,3 )。 


>>> b = arange(12).reshape(4,3) # 三 维 数组 
>>> print b 

[rd 4 32] 

L2 4 5] 

L6 2 8J 

[ $ X10 11]J 
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5) 数组 索引 。Numpy 数组 的 每 个 元 素 、 每 行 元 素 、 每 列 元 素 都 可 以 用 索引 访问 ， 不 
过 要 注意 索引 是 从 0 开始 的 。 比 如 ， 某 数组 大 小 为 (2,3 )， 则 第 2 行 第 1 列 元 素 的 索引 是 
[1,0]。 下 面 以 三 维 数 组 为 例 ， 演 示 数 组 的 创建 、 输 出 及 索引 。 

首先 创建 三 维 数组 c， 并 输出 其 元 素 。 


>>> c = arange(24).reshape(2,3,4) # 三 维 数组 


>> print c 
[LEO 1 2 
[4 5 6 
[ 8 9 10 


[[12 13 14 
[16 17 18 
[20 21 22 


3] 
7] 
111] 


15] 
19] 
23]]] 


三 维 数组 可 表示 为 如 图 3-1 所 示 的 形式 。 














图 3-1 三 维 数组 c 


图 3-1 中 单元 格 上 方 标注 了 [0,0,:]、[0,1,:] 等 索引 ， 索 引 中 的 “:” 表 示 该 维度 内 的 所 有 
元 素 。 对 照 图 3-1， 查 找 索 引 [1,2,:] 处 (第 2 行 第 3 列 ) 的 所 有 元 素 和 索引 [0,1,2] 处 的 元 素 ， 
可 得 出 元 素 为 [20,21,22,23] 和 6。 下面 编写 代码 验证 一 下 。 


»»» print c[1;2,:] 
[20 21 22 23] 
»»» print c[0,1,2] 


6 


6) 数组 运算 。 数 组 的 加 减 乘除 以 及 乘 方 运算 方式 为 ， 相 应 位 置 的 元 素 分 别 进行 计算 。 


比如 : 


数组 加 法 : array( [20,31,42,53] )=array( [20,30,40,50] )+array( [0,1,2,3] ) 

数组 减法 : array( [20,29,38,47] )=array( [20,30,40,50] )-array( [0,1,2,3] ) 

数组 乘法 : array([[2,0],[0,4]])=array( [[1,1],[0,1]] )*array( [[2,0],[3,4]] ) 

数组 乘 方 : array([0,1,2,3]) 的 二 次 方 =array([0,1,4,9]) 

数组 除法 : array([20.,15.,13.33333333,12.5])=array( [20,30,40,50] Jarray([1,2,3,4]) 

下 面 的 代码 演示 了 数组 的 加 、 减 、 乘 、 除 及 更 多 运算 (关键 代码 处 注释 了 运算 类 型 ) 。 
»»» a - array( [20,30,40,50] ) 


>>> aa = arange(1, 5) 
>>> a/aa### 除法 


array ([ 20. 


15. p 413.23333333, 12.5 ]) 
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成 ， 


sp 第 二 部 分 


Æ 础 


>>> 
>>> b = arange( 4 ) 
>>> b 


WL 2, 31) 
a-biHHE 减法 


array( 
>>> C = 
>>> g€ 
array([20, 29, 
>>> b**24HHE 乘 方 
Ü eod. 


38, 


array( 91) 


>>> 10*sin(a)##t 3 ,sin 函数 为 正弦 函数 
7.511316 , 


array([ 9.12945251, 


W 


47]) 


-9.88031624, 


-2.62374854]) 


>>> a«351HHt 指定 条 件 判断 后 生成 相应 的 布尔 数组 
dtype-bool) 





array( 
32> A = 


True, 
array( 
array( 
## 乘法 
3, 01 
0, 4]]) 


True, 


x55 B 三 
>>> A*B 


array( 





False, 
[ 1.3. 
[[2,0], [3,41] ) 


False], 
1.[9,111 ) 


>>> #dot 表示 乘积 。 对 一 维 数组 计算 的 是 点 积 ， 对 三 维 数组 计算 的 是 和 矩阵 乘积 


.. -# 此 处 表示 和 矩阵 乘积 
. dot (A, B) 

array([[5, 4], 

3, 411) 








*- 34H AK 


3], 
3y 34 SIA? 
adiit 加 法 


3.69092703, 
3.18679111, 
»»» a += b dt 加 法 
6, 
[J^ 


6, 
6, 


61, 
611) 


0.6903007 , 
0.48819875, 
>>> a.sum()i 求 和 
3.4552372100521485 





3.8324276 , 
3.3039349 , 


random.random((2,3)) 


0.39168346, 
0.77188505, 


>>> a.min()### 求 最 小 值 


0.16524768654743593 


>>> a.max()### 求 最 大 值 


0.9479215542670073 


3 


0. 


0 


= ones((2,3), dtype=int)#ł#ones 函数 创建 全 1 数组 ， 指 定 元 素 类 型 为 int 
= random.random((2,3))344 创建 随机 数组 ， 指 定 大 小 为 (2,3) 


.0114541 ], 
.37600289]]) 


16524769], 


.94792155]]) 


7) 数组 的 拷贝 。 数 组 的 拷贝 分 为 浅 拷贝 和 深 找 贝 两 种 ， 浅 拷贝 通过 数组 变量 的 赋值 完 
深 堵 贝 使 用 数组 对 象 的 copy 方法 。 
浅 拷贝 只 拷贝 数组 的 引用 ， 如 果 对 拷贝 进行 修改 ， 源 数组 也 将 修改 。 下 面 的 代码 演示 了 
浅 拷 贝 的 方法 。 
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>>> a-ones((2,3) 








>>> du 

array([[ Lea Tes lle. 
by Xs 129 

>>> b=a###b X a fW UL 

»»» b[1,2]-22 

>>> d 

array ([[ 1., as Als 
[ 1 2.11] 

>>> b 

arrati 1.5, Tss Taly 
E aaa Mea BRINI 


深 拷 贝 会 复制 一 份 和 源 数组 一 样 的 数组 ， 新 数组 与 源 数组 不 会 存放 在 同一 内 存 位置 中 ， 


因此 ， 对 新 数组 的 修改 不 会 影响 源 数组 。 下 面 的 代码 演示 了 使 用 copy 方法 从 源 数组 a 复制 
一 份 拷贝 的 情况 。 可 以 看 到 ， 修 改 b 后 ，a 仍然 不 变 。 


>>> a-ones((2,3)) 
>>> b = a.copy() 
> b[l,2]22 


>>> a 

rsat li Les Xo, Aaly 
l dos mew. CEU 

>>> b 

array(r( l., Iaa 141; 
l dee X 2.1014 

2. 矩阵 


1) Quz XE E. Numpy 的 矩阵 对 象 与 数组 对 象 相似 ， 主 要 不 同 之 处 在 于 ， 算 阵 对 象 的 计 


算 遵循 矩阵 数学 运算 规律 。 和 矩阵 使 用 matrix 函数 创建 ， 以 (2,2 ) 大 小 的 矩阵 (2 行 2 列 ) 为 


例 ， 


可 用 以 下 两 种 方式 定义 参数 : 

' 第 1 行 第 1 列 元 素 第 1 行 第 2 列 元 素 ; 第 2 行 第 1 列 元 素 第 2 行 第 2 列 元 素 ' 

[[ 第 1 行 第 1 列 元 素 ， 第 1 行 第 2 列 元 素 ], [第 2 行 第 1 列 元 素 , 第 2 行 第 2 列 元 素 ]] 
下 面 的 代码 演示 了 矩阵 的 创建 及 类 型 查询 方法 。 


>>> A = matrix('1.0 2.0; 3.0 4.0') 4$ JERE A 


>>> A 
[IL à. 2j 
I3. 24. 
>>> B = matrix([[1.0,2.0],[3.0,4.0] ] ) HH JE IF B 
>>> B 
mt Ie. Zala 


E 3.5 ABl: 
>>> type(A) # 查询 A 变量 的 类 型 


«class 'numpy.matrixlib.defmatrix.matrix'» 


2) 4B S SE, EPERE HIC TU PEEL, RA RAS, FABR TEER 


基本 运算 (请 先导 和 人 numpy 库 再 执行 以 下 代码 )。 
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>>> 


LE 


A.T HHE 
3:1 


[ 2. 4.]] 


>>> 


>>> 


>>> 


[[5. 
[7. 


2» 


matrix('5.0 7 
XT # 转 置 


nol 


X 
Y 
Y 
] 


1] 
print A*Y # 矩阵 乘法 


HELS] 

[43.]] 
se» print A.I # xk ABE 
[[-2. Le d 

[ 1.5 —945]7] 
»»» solve(A, Y) # 解 线性 方程 组 
matrixt[[-3.]., 

(4.11) 





x 关于 Numpy 及 其 函数 的 更 多 信息 可 查阅 Numpy 官网 : 
http://wiki.scipy.org/Numpy Example List 





3.1.3 pylab, matplotlib 绘图 


为 了 验证 算法 的 有 效 性 ， 机 器 学 习 通 常 需要 进行 绘图 ，pylab matplotlib 等 模块 是 专业 
的 Python 绘图 模块 。 

1. sin 函数 绘制 

在 二 维 坐标 系 中 绘图 的 基本 方式 是 使 用 plot 方法 ,其 参数 分 别 为 x 轴 数值 、y 轴 数 值 ， 这 里 
的 数值 可 以 是 单个 数 也 可 以 是 Numpy 的 一 维 数组 对 象 。 下 面 的 代码 演示 了 sin 函数 图 像 的 绘制 。 


import numpy as np 
import matplotlib.pyplot as plt 


x ox 
y = 


pit. 


np.arange(0, 5, 0.1); 
np.sin(x) 
plot (x, y) 


如 图 3-2 所 示 为 sin 函数 图 像 效 果 图 ， 从 效果 图 上 观察 ， 曲 线 清 晰 ， 坐 标 系 的 标尺 根据 
绘制 参数 已 进行 自动 调整 。 

2. cos 函数 绘制 

下 面 的 代码 使 用 plot 方法 绘制 cos 函数 图 像 。 


import numpy as np 
import matplotlib.pyplot as plt 


pb 
y e 


DLE 
plt. 


np.arange(0, 5, 0.1); 
np.cos(x) 

piot(x, y) 

show() 
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绘图 效果 如 图 3-3 所 示 。 


@ 十 地 B 





图 3-2 sin 函数 图 像 效 果 图 图 3-3 cos 函数 图 像 效果 图 


进一步 扩充 图 3-3 所 示 cos 函数 绘制 范围 ， 将 自 变 量 x 的 范围 扩大 到 [-8,8], <fi rK% 
cos 图 像 的 周期 性 一 目 了 然 ， 如 图 3-4 所 示 。 下 面 是 绘制 代码 。 


import numpy as np 

import matplotlib.pyplot as plt 
x - np.arange(-8, 8, 0.1); 

y = np.cos(x) 

plt.plot(x, s) 

plt.show() 





图 3-4 cos 函数 周期 图 像 
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3.1.4 图 像 基础 


1. 数字 图 像 

数字 图 像 是 指 将 二 维 图 像 用 有 限 数字 的 数值 像素 表示 ， 像 素 表面 上 看 起 来 不 像 分 离 的 
点 ， 但 实质 它们 就 是 点 。 例 如 ， 图 3-5 所 示 的 树叶 写真 就 是 由 很 多 像素 点 组 成 的 ， 但 用 肉眼 
无 法 观察 到 像素 点 的 存在 。 

我 们 使 用 一 款 取 像素 的 软件 对 图 3-5 进行 分 析 ， 如 图 3-6 所 示 。 可 以 看 到 ， 线 的 十 字 交 
又 处 就 是 一 个 像素 点 ， 软 件 显示 ， 在 图 像 的 [459,530] 处 像素 点 的 值 为 (64,77,67 )。 中 间 是 
放大 的 这 部 分 图 片区 域 ， 放 大 后 ， 图 像 仿佛 由 一 个 个 小 的 颗粒 组 成 ， 将 这 些 颗粒 进一步 放大 ， 
就 能 看 到 颗粒 是 由 若干 个 像素 点 组 成 ， 如 果 将 图 像 完 全 放大 ， 就 能 看 清 每 个 像素 点 的 存在 了 。 

(64,77,67 ) 就 是 图 3-6 中 某 点 的 像素 值 。 每 个 像素 点 可 有 各 自 的 颜色 值 ， 可 采用 三 原色 显 
示 ， 因 而 又 分 成 红 、 绿 、 蓝 三 个 子 像素 (RGB 色 域 )， 或 者 青 、 品 红 、 黄 和 黑 (CMYK 色 域 )， 
通常 计算 机 的 图 像 采用 的 像素 标准 为 红 、 绿 、 蓝 
三 个 子 色 。 图 3-6 所 示 十 字 交 叉 处 的 像素 值 含 义 
为 : 红色 值 为 644， 绿色 值 为 77， 蓝 色 值 为 67。 

分 辨 率 是 度量 图 像 内 数据 量 多 少 的 一 个 参 [459, san] 
数 ， 通 常 表示 成 每 英寸 像素 数 和 每 英寸 点 数 。 分 ““™ ee 
辨 率 越 高 ， 图 像 包 含 的 数据 越 多 ， 就 越 能 表现 更 。 
丰富 的 细节 ， 图 形 文件 就 越 大 。 从 图 3-7 能 较 直 
观 地 看 出 这 个 效果 ， 随 着 分 辨 率 的 增加 ， 字 母 R 越 来 越 清晰 。 






1x1 2x2 





10x10 20x20 50x50 100x100 


2. OpenCV 的 Python 绑 定 库 实 例 

假设 图 像 的 分 辩 率 为 800 x 600， 则 每 一 条 水 平 线 上 包含 有 800 个 像素 点 ， 共 有 600 条 
线 ， 在 计算 机 中 可 以 使 用 一 个 800 列 600 行 的 数组 来 表示 该 图 像 。 数 组 的 每 个 元 素 就 是 一 个 
像素 点 ， 比 如 ， 第 100 行 第 200 列 的 元 素 就 是 图 像 的 第 100 条 水 平 线 第 200 个 像素 点 的 像素 
值 。 那 么 如 何 提取 图 像 中 的 像素 值 呢 ? 

可 以 使 用 OpenCV 的 Python 绑 定 库 完 成 这 些 操作 .OpenCyV 作为 跨 平台 的 计算 机 视觉 库 ， 
拥有 包括 500 多 个 跨 平台 图 像 处 理 的 中 、 高 层 API， 对 图 像 像 素 的 读 写 自 然 不 在 话 下 。 

使 用 OpenCV 函数 库 之 前 ， 需 要 先导 入 其 Python 绑 定 库 。 















图 3-7 及 字母 在 不 同 分 辩 率 下 的 效果 














import cv2 
OpenCV RRHH KA H3 13813 Pe f n] BERE AII BREER, OpenCV 图 像 矩 阵 中 每 
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个 像素 点 的 值 由 蓝 色 值 、 绿 色 值 、 红 色 值 3 个 部 分 组 成 ， 三 色 值 组 合成 一 个 一 维 数组 。 假 设 
A 图 像 的 高 度 ( 行 数 ) XH, WE GO 为 W， 则 A 图 像 对 应 的 图 像 算 阵 大 小 为 Hx W x3, 
A KRERET ÆR H ÍT WI ( 共 HxW 个 ) 像素 点 的 组 合 。 

如 果 想 读 取 A 图 像 150 行 20 列 处 的 像素 值 ( 设 A 的 图 像 矩 阵 变量 为 img _a)， 可 进行 如 
下 访问 : 

img a[150,20,:] 

下 面 的 代码 中 第 1 行 是 150 £7 20 列 处 像素 的 蓝 色 值 ， 第 2 行 是 150 f 20 列 处 像素 的 绿 
色 值 ， 第 3 行 是 150 行 20 列 处 像素 的 红色 值 。 

blue-img a[150,20,0] 


green-img a[150,20,1] 
red-img a[150,20,2] 


下 面 以 几 个 经 典 实例 演示 OpenCV 的 Python 绑 定 库 的 使 用 方法 。 

1) 显示 图 像 。 程 序 原 理 是 ， 首 先 使 用 imread (文件 名 ) 读 取 图 像 文件 ， 生 成 图 像 矩 阵 ， 
然后 调用 imshow 方法 显示 图 像 ， 调 用 waitKey() 方法 等 待 按键 ， 最 后 调用 destroyAllWindows() 
销毁 窗口 ， 这 样 可 方便 查看 图 像 。 

*!/usr/bin/env python 

#3-1.py 


import cv2 
fn-"testl.jpg" 


if name == *!* main 
print 'http://blog.csdn.net/myhaspl' 
print 'myhaspl8qq.com' 





print 

print 'loading $s ...' $ fn 
img = cv2.imread(fn) 
cv2.imshow('preview', img) 


cv2.waitKey() 
cv2.destroyAllWindows () 


效果 如 网 3-8 所 示 。 
2) 随机 生成 像素 。 程 序 的 原理 是 ， 首 先 产 生 空 图 像 矩 阵 ， 然 后 确定 失 阵 的 2000 个 随机 
位 置 ， 最 后 将 随机 位 置 处 的 像素 值 设置 为 随机 数 数组 。 下 面 是 源 代码 。 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

# 随机 生成 像素 点 

#3-2.py 

# 导入 numpy 和 opencv 函数 库 
import numpy as np 
import cv2 


Xf name == ' Main 
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# 行 数 

szl = 200 

# 列 数 

sz2 = 300 

print u' j'/E RIRE ($d*$d) ...' & (szl, sz2 

# 产生 空 图 像 矩 阵 ， 大 小 为 szl*sz2( 行 数 * 列 数 )， 本 程序 为 2 

img -np.zeros((szl, sz2,3), np.uint8) 

posl-np.random.randint(200,size-(2000, 1))### 行 位 置 随机 数组 

pos2-np.random.randint(300,size-(2000, 1))iHH 列 位 置 随机 数组 

# 在 随机 位 置 处 设置 像素 点 值 

for i in range(2000): 
img[posi[il,pos2[i],[0]]2np.random.randint(0,255) 
img[posl[i],pos2[i],[1]]2np.random.randint (0,255) 
img[pos1[il,pos2[i],[21]2np.random.randint (0,255) 


# 显示 图 像 
cv2.imshow('preview', img) 
# 等 待 按键 

cv2.waitKey() 

# 销毁 窗口 


cv2.destroyAllWindows() 











图 3-8 ”显示 图 像 


随机 产生 像素 点 后 ， 创 建新 窗口 并 显示 含 彩色 雪花 
点 的 图 像 ， 运 行 以 上 代码 : 
产生 空 图 像 矩 阵 (200*300) 


效果 如 图 3-9 所 示 ， 

3) 获取 图 像 大 小 。 程 序 通 过 网 像 矩 阵 的 shape 属 
性 获取 图 像 大 小 ，shape 返回 tuple 元 组 ， 元 组 的 第 1 个 
元 素 为 高 度 ， 第 2 个 元 素 为 宽度 ， 第 3 个 元 素 为 3 UR ”图 3-9 ”随机 产生 若干 像素 点 ( 附 彩 图 ) 
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素 值 由 三 原色 组 成 )。 


#!/usr/bin/env python 
d-*- coding: utf-8 -*- 
4$3-3.py 

import cv2 

import numpy as np 
fn-"test2.jpg" 


if | rame == ' main .': 
print 'loading $s ...' $ fn 
img - cv2.imread(fn) 


# A ERE BEK UIS 

sp-img.shape 

print sp 

# 高 度 ， 即 行 数 

szl-sp[0] 

上 # 宽度 ， 即 列 数 

sz2-sp[1] 

print 'width:£dWMnheight:£d'£(sz2,szl) 


运行 效果 如 下 ， 程 序 返回 图 像 的 高 为 435， 宽 为 656。 


loading testl.jpg ... 
(435, 656; 3) 
width:656 

height:435 


4) 调节 图 像 亮度 。 调 节 的 原理 是 ， 将 像素 值 变 小 ， 则 将 亮度 调 小 ， 全 部 色彩 变 瞳 ; 将 
像素 值 变 大 ， 则 将 亮度 调 大 ， 全 部 色彩 变 亮 。 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-4.py 
import cv2 
import numpy as np 
fn-"testl.jpg" 
if name . == ' main A 
print 'loading $s ...' $ fn 
print u' 正在 处 理 中 '， 
img = cv2.imread (fn) 
w-img.shape[1] 
h-img.shape[0] 
iis 
UE Ed 
for xi in xrange(0,w): 

for xj in xrange (0,h): 

# 将 像素 值 整体 减少 ， 设 为 原 像素 值 的 20% 
img[xj,xi,0]-» int(img[xj,xi,0]*0.2) 
imngIxj,xi,l1]- int(img[xij,xi,1]*0.2) 
lmg[xj.xi,212 int(imgIxj,xi,2]*0.2) 

# 显示 进度 条 

1f xiW*vLl0s-c0Ü sprint "s"; 

cv2.namedWindow('img') 
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cv2.imshow('img', img) 
cv2.waitKey() 
cv2.destroyAllWindows() 
BELNET" 
print u' 正在 处 理 中 上 ， 
# 将 全 部 色彩 变 亮 
for xi in xrange(0,w): 

for xj in xrange (0,h): 


# 将 像素 值 整体 增加 ， 设 为 原 像素 值 的 10208 


img[xj,xi,0]- int(img[xj,xi,0]*10.2) 
imq[xj,xi,l1]s imt(imglxj,x4i,41]*120.2) 
imgixj,xi,2]s int(imgIxj,;xi,2]*10.2) 
E xi*c102-0 print '."', 
8 显示 图 像 


cV2 .namedWindow!('img') 
cv2.imshow('img', img) 
cv2.waitKey() 
cv2.destroyAllWindows() 


上 面 程序 将 图 像 每 个 像素 值 减 少 ， 实 现 图 像 亮度 变 暗 的 效果 ， 如 图 3-10 所 示 。 然 后 每 
个 像素 值 增 大 ， 实 现 图 像 亮 度 变 亮 的 效果 。 
如 图 3-11 所 示 为 图 像 变 亮 效果 ， 因 为 像素 值 过 大 ， 已 经 出 现 失真 现象 。 





图 3-10 图 像 变 暗 (MER) 图 3-11 图 像 变 亮 ( 附 彩 图 ) 


5) 图 像 日 落 效果 。 日 落 效果 的 生成 原理 很 简单 ， 将 蓝 色 值 和 绿色 值 设 为 原来 的 70%， 
红色 值 不 变 ， 设 图 像 矩 阵 为 img。 代 码 如 下 : 
# 生成 日 落 效果 
for xi in xrange(0,w): 
tor xj in xrange (0,h): 
img[xj,xi,0]- int(img[xj,xi,01*0.7)3948 蓝 色 值 为 原来 的 70g% 
img[xj,xi,1]- int(img[xj,xi,11x*0.7) 间 ## 4& & t Jj Ig o m 708 


VERE TURA: 


#!/usr/bin/env python 
P-*- coding; utf-8 -*- 
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83-5.py 
import cv2 
import numpy as np 
fn-"testl.jpg" 
if name sc o mair "3 
print 'loading $s ...' $ fn 
print u' 正在 处 理 中 ，'， 
img = cv2.imread (fn) 
w-img.shape[ll 
h-img.shape[0] 
iis) 
# 生成 日 落 效果 
for xi in xrange(0,w): 
for xj in xrange (0,h): 
img[xj,xi,0]- int(img[xj,xi,0]*0.7)4494 蓝 色 值 为 原来 的 70% 
img[xj,xi,1]- int(img[xj,xi,1]*0.7)448 绿色 值 为 原来 的 70$ 





# 显示 进度 条 

if  xi€S10s-0 print '.".; 
# 显示 图 像 
cv2.namedWindow("'img') 
cv2.imshow('img', img) 


cv2.waitKey() 
cv2.destroyAllWindows() 


运行 效果 如 图 3-12 所 示 。 

6) 负片 与 水 印 效果 。 生 成 负片 的 
原理 是 ， 将 像素 的 三 色 值 设 为 (255- 原 
值 )。 设 图 像 矩 阵 为 img， 代 码 如 下 : 

3 CELA 
B, Ga E ecwl.split(inmg) 
b2255-b 
g2255-8 
r2z255-r 

水 印 效 果 的 原理 是 ， 调 用 putText 
函数 ， 以 图 像 矩 阵 为 第 1 个 参数 ， 输 出 
内 容 为 第 2 个 参数 ， 在 图 像 上 直接 输出 
水 印 文字 。 代 码 如 下 : 


# 加 上 水 印 


cv2.putText(img,"machine learning", (20,20),cv2.FONT HERSHEY PLAIN, 2.0, (0, 0, 
0), thickness - 2) 


cv2.putText(img,"Support Vector Machines(SVMs)is an algorithm 


of machine learning.", (20,100),cv2.FONT HERSHEY PLAIN, 1.0, (0, O0, 0), 
thickness - 2) 


负片 与 水 印 效果 的 完整 代码 如 下 : 


#!/usr/bin/env python 





A Ya 


图 3-12 ”图像 日 落 效 果 ( 附 彩 图 ) 
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#=*= coding: utf-8 -*- 
4$3-6.py 
import cv2 
import numpy as np 
fn-"testil.jpg" 
if name ac "Main "5 
print "Loading £8 ...' * fn 
print u' 正在 处 理 中 '， 
# 读 取 图 像 文件 
img = cv2.imread(fn) 
# 获取 图 像 大 小 
w-img.shape[l] 
h-img.shape[0] 
dae 
# 生成 负片 
b, G, r = evå. split (dmg) 
b-2255-b 
ga255-8 
pa GOSE 
# 直接 通过 索引 改变 色彩 分 量 
img lipy U] 
Tm ls pig L8 
1 3 
# 加 上 水 印 
cv2.putText(img,"machine learning", (20,20),cv2.FONT HERSHEY PLAIN, 2.0, (0, 
0, 0), thickness - 2) 
cv2.putText(img,"Support Vector Machines(SVMs)is an algorithm 
of machine learning.", (20,100),cv2.FONT HERSHEY PLAIN, 1.0, (0, O0, 0D), 
thickness - 2) 
cv2.namedWindow('img') 
cv2.imshow('img', img) 
cv2.waitKey() 
cv2.destroyvAllWindows () 


运行 效果 如 图 3-13 所 示 。 

7) 图 像 平 铺 。 图 像 平 铺 的 原理 
是 ， 首 先 计 算 平 铺 后 的 图 像 大 小 ， 生 成 
同样 大 小 的 空白 图 像 ， 然 后 在 空白 图 像 
中 逐个 像素 复制 图 像 ， 直 接 将 空白 图 像 
像素 值 设置 为 平 铺 后 该 位 置 对 应 的 像素 
值 ， 复制 的 顺序 是 逐 行 复制 ， 横 向 平 铺 
5 个 图 像 ， 纵 向 平 铺 2 个 图 像 ， 最 后 显 
示 图 像 效 果 。 下 面 是 完整 代码 : 











#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
ftcode:myhaspl8qq.com 
#3-”7 .py 

import cv2 





图 3-13 ”负片 和 水 印 效果 ( 附 彩 图 ) 
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import numpy as np 
fn="test .png" 





if name zum "à ny 
print 'loading $s ...' $ fn 
print ' 正在 处 理 中 '， 
img = cv2.imread(fn) 


w-img.shape[1] 
h-img.shape[0] 
# 横向 平 铺 5 个 图 像 
szl=w*5 
# 纵向 平 铺 2 个 图 像 
sz0-h*2 
# 创建 空白 图 像 ， 然 后 将 图 片 排列 
myimgi-np.zeros((sz0,szl,3), np.uint8) 
# 逐个 像素 复制 
img x-0 
img y-0 
for now y in xrange(0,sz0): 
# 增加 行 数 
for now x in xrange(0,sz1): 
# 复制 对 应 位 置 的 图 像 像素 点 
myimgl[now y,now x,0]-img[img y,img x,0] 
myimgi[now y,now x,l]-img[img y,img x,1] 
myimgl [now y,now x,2]-img[img y,img x,2] 
# 增加 列 数 
img x«-1 
if img x»-w: 
img x-0 
img y-«-1 
if img y»-h: 
img y-0 
print '.', 
cv2.namedWindow('imgl') 
cv2.imshow('imgl', myimgl) 
cv2.waitKey() 
cv2.destroyAllwindows () 


运行 效果 如 图 3-14 所 示 。 

8) 转 置 并 平 铺 图 像 。 与 刚才 的 例子 相似 ， 
但 多 了 一 步 转 置 操作 。 转 置 的 原理 是 将 图 像 矩阵 
转换 为 它 的 转 置 和 矩阵， 转 置 算法 是 将 新 图像 矩阵 
[h,w] 处 的 像素 设 为 原 图 像 矩 阵 [wh] 处 的 值 (这 
里 的 值 是 一 维 甜 阵 )， 相 当 于 和 拖 阵 转 置 的 算法 。 设 
myimgl 为 图 像 和 矩阵 ， 编 写 代 码 如 下 : 图 3-14 图 像 平 铺 

for now y in xrange(0,sz0): 


for now x in xrange(0,sz1): 
myimgl[now x,now y,:]-img[img y,img x,:] 


转 置 并 平 铺 图 像 完整 代码 如 下 : 
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#!/usr/bin/env python 
4$-*- coding: utf-8 -*- 
dcode:myhaspl8qg.com 
4$3-8.py 

import cv2 

import numpy as np 
fn-"test.png" 

if name == oU aiñ 





oc 


print 'loading $s ...' En 
print 'working', 
img - cv2.imread(fn) 
w-img.shape[1] 
h-img.shape[0] 
W 为 宽度 ，h 为 高 度 
szl=w*2 
8z0-n*3 
创建 空白 图 像 ， 然 后 将 图 片 排列 
myimgl=np.zeros( (sz1,sz0,3), np.uint8) 
翻转 并 生成 图 像 
逐个 复制 像素 
img x-0 
img y-0 
for now y in xrange(0,sz0): 
for now x in xrange(0,sz1): 
# 旋转 图 像 
myimgi1[now x,now y,:]-img[img y,img x,:] 
img. x4-1 
# 新 的 一 次 平 铺 
if img x»-w: 
img x-0 
img y4-1 
# 新 的 一 次 平 铺 XE zo E 
if img y»-h: j 








img y-0 
primt ? 
cv2.namedWindow('imgl1') 
cv2.imshow('imgl', myimgl) 





cv2.waitKey() 
cv2.destroyAllWindows() 


运行 效果 如 图 3-15 所 示 。 图 3-15 图 像 旋转 和 平 铺 


3.1.5 ”图 像 融 合 与 图 像 镜 你 

本 节 的 两 个 例子 是 对 上 节 内 容 精 华 的 总 结 ， 较 好 地 综合 了 OpenCV 的 基础 功能 。 

1. 图 像 融 合 

图 像 融 合 的 原理 是 ， 让 新 图 像 的 每 个 像素 成 为 两 个 源 图 像 中 对 应 像素 的 平均 值 之 和 ， 
BJ. 将 两 个 图 像 的 像素 值 取 50% 后 相 加 。 为 简化 计算 ， 直 接 选 取 其 中 一 个 源 图像 作 为 新 图 
像 ， 设 新 图 像 矩 阵 为 myimg2， 编 写 代码 如 下 : 
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# 每 个 像素 为 2 个 像素 的 平均 值 
for y in xrange(0,sz0): 
for x in xrange(0,sz1): 
myimg2[y,x,:]emyimgl[y,x,:]*0.5«myimg2[y,x,:]*0.5 


完整 代码 如 下 (关键 之 处 有 注释 ): 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq .com 
#3-9 .py 

import cv2 

import numpy as np 
fnl-"hel.jpg" 
fn2-"he2.jpg" 





TL name sz ' main 
print 'working', 
myimgl = cv2.imread(fnl) 
myimg2 - cv2.imread(fn2) 


# 取得 图 像 大 小 
w-myimgl.shape[1] 
hemyimgl1.shape[0] 
szl=w 

sz0-h 


# 每 个 像素 为 2 个 像素 的 50% 之 和 ， 进 行 图 像 融 合 
for y in xrange(0,sz0): 
for x in xrange(0,sz1): 
myimg2[y,x,:]2myimgl[y,x,:]1*0.5«myimg2[y,x,:]*0.5 
print s“ 


cv2.namedWindow ('img2') 
cv2.imshow('img2', myimg2) 
cv2.waitKey() 
cv2.destroyAllWindows() 





效果 如 图 3-16 所 示 。 图 3-16 图 像 融 合 


2. 图 像 镜像 

图 像 纵向 镜像 的 原理 是 ， 首 先 获取 图 像 的 宽度 ， 将 宽度 的 5096 取 整 后 作为 图 像 的 纵向 
中 线 ; 然后 以 中 线 为 轴 ， 将 图 像 左 边 反 向 复制 到 图 像 右边 ， 使 图 像 最 右边 一 列 的 像素 点 等 于 
图 像 最 左边 一 列 的 像素 点 。 比 如 ， 图 像 大 小 为 200 x 300 (高 200， 宽 300), 第 180 行 170 列 
(索引 为 [180,170,:]) 的 像素 点 值 为 第 180 行 第 130 列 的 像素 点 值 (300-170=130 )。 

横向 镜像 与 纵向 镜像 类 似 ， 不 同 之 处 在 于 将 高 度 的 50% 取 整 后 作为 图 像 的 横向 中 线 ， 
复制 时 是 最 下 边 一 行 的 像素 点 值 等 于 最 上 边 一 行 的 像素 点 值 。 

纵向 镜像 可 按 如 下 形式 编写 代码 : 

# 纵向 生成 镜像 


mirror w-w/2 
for j in xrange(0,h): 


ww ai bit. com (10 80 B U 


48 “ss 第 二 部 分 d 础 篇 


for i in xrange(0,mirror w): 
img[j,i,:]-img[j,w-i-1,:] 


下 面 的 代码 演示 了 图 像 的 纵向 镜像 。 


*1/usr/bin/env python 
4-*- coding: utf-8 -*- 
$code:myhaspl8qq.com 
483-10.py 

import cv2 

import numpy as np 


fn-"testl.jpg" 

if name xm Uo amd č": 
print 'loading $s ...' $ fn 
print ' 正在 处 理 中 '， 
img = cv2.imread(fn) 
w-img.shape[1] 
h-img.shape[0] 
ii-0 
# 纵向 生成 镜像 
mirror w-w/2 
for j in xrange(0,h): 

for i in xrange (0, 





mirror  w): 





img[j,i,:]-img[j,w-i 
sz] 
print s% 

# 显示 图 像 

cv2.namedWindow('img') 
cv2.imshow('img', img) 
cv2.waitKey() 

cv2.destroyAllWindows|() 

运行 效果 如 图 3-17 所 示 。 图 3-17 图 像 镜像 


3.46 ”图 像 灰 度 化 与 图 像 加 噪 
1. 图 像 灰 度 化 


图 像 灰 度 化 的 原理 是 ， 彩 色 图 像 中 的 每 个 像素 的 颜色 由 R、G、B 三 个 分 量 决定 ， 而 每 
个 分 量 的 取 值 范围 为 0 ~ 255。 而 灰 度 图 像 是 R、G、B 三 个 分 量 相同 的 一 种 特殊 的 彩色 图 像 ， 


其 算法 有 以 下 两 种 : 
1) 求 出 每 个 像素 点 的 R、G、B 三 个 分 量 的 平均 值 ， 然 后 将 这 个 平均 值 赋予 给 这 个 像素 
的 三 个 分 量 s 


2) 根据 RGB fil YUV 颜色 空间 的 变化 关系 ， 建 立 亮度 Y 与 R、G、B 三 个 颜色 分 量 的 


对 应 关系 : Y=0.3R+0.59G+0.11B， 以 这 个 亮度 值 表达 图 像 的 灰 度 值 。 


OpenCV 有 相关 的 函数 cvtColor， 用 它 可 直接 完成 灰 度 化 操作 。 设 img 为 源 图 像 矩阵 ， 


myimgl 为 灰 度 化 后 的 目标 图 像 息 阵 ， 编 写 代 码 如 下 : 
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# 复制 并 转换 为 灰 度 化 图 像 
myimgl-cv2.cvtColor(img,cv2.COLOR BGR2GRAY) 


下 面 的 代码 演示 了 图 像 的 复制 与 图 像 的 灰 度 化 操作 。 


d!/usr/bin/env python 
#-*- coding: utf-8 -*- 
*3-11.py 

import cv2 

import numpy as np 


fn-"test2.jpg" 

if _ name == "' main "': 
print 'loading $5 ...' $ fn 
img = cv2.imread(fn) 
sp-img.shape 
print sp 
# 获取 图 像 大 小 
#height 
szl=sp[0] 
#width 
sz2-sp[1] 
# 显示 图 像 大 小 
print 'width:$dWMnheight:$d'$(sz2,sz1) 
# 创建 一 个 窗口 并 显示 图 像 
cv2.namedWindow('img') 
cv2.imshow('img', img) 
# 复制 图像 矩阵 ， 生 成 与 源 图 像 一 样 的 图 像 ， 并 显示 
myimg2- img.copy(); 
cv2.namedWindow( 'myimg2') 
cv2.imshow('myimg2', myimg2) 





# 复制 并 转换 为 灰 度 化 图 像 ， 并 显示 
myimgi-cv2.cvtColor(img,cv2.COLOR BGR2GRAY) 
cv2.namedWindow ( 'myimgl') 
cv2.imshow('myimgl', myimgl) 
cv2.waitKey() 
cv2.destroyAllWindows () 


上 面 的 代码 生成 了 与 源 图 像 一 样 
的 新 图 像 ， 并 生成 了 另 一 个 源 图 像 的 
灰 度 化 图 像 ， 运 行 效 果 如 图 3-18 所 示 。 

现在 大 部 分 的 彩色 图 像 都 是 采用 
RGB 颜色 模式 ， 处 理 图 像 的 时 候 ， 要 
分 别 对 RGB 三 种 分 量 进 行 处 理 。 实 
际 上 RGB 并 不 能 反映 图 像 的 形态 特 
征 ， 只 是 从 光学 的 原理 进行 颜色 的 调 
配 。 把 图 像 转换 成 8 位 的 灰 度 值 图 像 
直接 进行 处 理 ， 可 以 通过 直方 图 、 灰 图 3-18 图像 灰 度 化 ( 附 彩 图 ) 
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度 变 化 及 正 交 变换 之 类 数学 运算 对 图 像 做 进一步 处 理 ， 比 如 说 图 像 误 别 等 。 如 果 有 必要 ， 可 


将 图 像 二 值 化 ， 这 样 有 利于 对 图 像 进 一 步 处 理 ， 使 图 像 数 据 
量 减 小 ， 突 显 出 感 兴趣 的 目标 的 轮廓 。 如 图 3-19 所 示 为 某 汽 
车 图 像 二 值 化 的 效果 。 


2. 图 像 加 噪 

给 图 像 人 为 加 噪 的 原理 是 ， 将 图 像 知 干 个 像素 点 的 值 设 
为 噪声 点 的 值 。 比 如 ， 为 图 像 加 上 很 多 像素 值 为 [25,20,20] 
的 像素 点 ， 编 写 代 码 如 下 : 


for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1])) 
xj - int(np.random.uniform(0,img.shape[0])) 
if img.ndim -- 2: 
# 灰 度 图 像 

img[x], x1] = 255 
elif img.ndim -- 3: 

# 非 灰 度 图 像 ， 图 像 加 噪 
imgixjgxi,0]- 25 
imglxj,x2,1]2 28 
img[xj,;xi,2]e 20 





图 3-19 图 像 二 值 化 


上 上 面 的 代码 对 img.ndim 进行 判断 的 用 意 在 于 ， 如 果 图 像 是 灰 度 化 图 像 ， 则 img.ndim 为 
2， 灰 度 化 图 像 的 像素 值 不 存在 红 、 绿 、 蓝 三 色 之 分 ， 仅 有 灰 度 值 ， 因 此 像素 值 仅 需要 一 个 ， 


将 对 应 噪声 点 位 置 的 值 设 为 2355 即 可 。 


下 面 的 代码 演示 了 图 像 加 噪 的 算法 ,为 彩色 图 像 人 为 加 上 100 000 个 色彩 随机 的 噪声 点 。 


#!/úsr/bin/env python 
=*= coding: utf-8 -*- 
13-12.py 
import cv2 
import numpy as np 
# 需要 加 噪 的 图 像 文件 名 
fn-"testi1.jpg" 
if name mmt mqmain 
# 加 载 图 像 
print 'loading $s ...' % fn 
img - cv2.imread(fn) 
# 噪声 点 数量 
coutn-100000 
for k in xrange(0,coutn): 
# 获取 图 像 噪声 点 的 随机 位 置 
xi = int (np.random.uniform(0,img.shape[1])) 
xj = int(np.random.uniform(0,img.shape[0])) 
# 图 像 加 噪声 点 
if img,ndim == 
img[xj,xi] = 255 
elif img.ndim == 








imgd[xj;xi,0]-2 25 


ww ai bbt. com (110 8 0 B 


第 3 章 ， 计 算 平台 应 用 实例 $s 51 


img[xj,xi,1]e 20 

img[xj,xi,2]-2 20 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
cv2.waitKey(]) 
cv2.destroyAllWindows() 


运行 效果 如 图 3-20 所 示 。 





图 3-20 图像 加 品 


上 述 程序 的 运行 原理 是 将 图 像 数据 矩阵 随机 位 置 的 像素 点 设 为 (25,20,20 )， 当 随机 的 像 
素 点 数量 较 大 时 ， 就 在 图 像 上 生成 了 噪声 。 

加 上 噪声 的 图 像 是 为 了 实验 图 像 识别 的 效果 ， 有 些 机 融 学 习 算法 对 没有 噪声 的 图 像 识 别 
的 效果 很 好 ， 但 如 图 3-20 这 种 噪声 较 多 的 情况 效果 就 很 不 理想 了 ， 因 为 在 实际 工程 应 用 中 ， 
很 难保 证 采集 到 的 图 像 清晰 可 乱 ， 所 以 需要 人 为 给 图 像 加 上 噪声 ， 以 方便 后 期 对 算法 效果 进 
行 验证 。 


3.1.7 ”声音 基础 


1. 声音 原理 

声音 是 由 物体 的 机 械 振动 形成 的 ， 发 生 声 音 的 振动 源 叫 作 “ 声 源 ”。 振 动 着 的 鼓 皮 、 琴 
弦 、 扬 声 器 等 都 是 声 源 ， 人 的 声带 也 是 声 源 。 声 音 必 须 通过 媒质 才能 传播 ， 空 气 、 水 、 金 
属 、 木 材 等 是 最 常见 的 媒质 。 声 波 的 频率 是 每 秒 钟 往复 振动 的 次 数 ， 一 来 一 往 为 一 次 ， 又 称 
一 周 ， 声 波 的 频率 也 就 是 声音 的 频率 ， 频 率 单 位 为 赫 效 ( Hz)， 每 秒 振动 一 周 为 1Hz。“ 波 长 ” 
是 声 源 每 振动 一 周 声波 所 传播 的 距离 ， 频 率 越 高 则 波长 越 短 ， 波 长 同 频率 成 反比 。 

“相位 ”可 简称 为 “ 相 ”。 一 般 地 说 ， 相 位 是 用 来 描述 简 谐 振动 的 ， 在 一 个 周波 之 内 ， 任 
何 一 点 的 “ 相 ” 都 不 相同 ， 各 对 应 于 一 个 确定 的 相位 角 值 ; 而 在 另 一 个 周波 ， 各 种 相位 将 会 
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重复 出 现 。 所 以 在 声波 传播 的 路 径 上 ， 每 隔 一 个 波长 的 距离 ， 其 相位 相同 。 

声音 的 音调 是 由 它 的 基 频 决定 的 ， 基 频 越 高 则 音调 也 越 高 。 如 在 音乐 中 中 央 C 的 基 频 
是 261.6Hz， 而 A 调 的 基 频 则 是 440Hz。 通 常 将 声音 分 为 以 下 频带 : 20Hz、25Hz、31.5Hz、 
40Hz, 50Hz, 63Hz, 80Hz, 100Hz, 125Hz, 160Hz, 200Hz, 250Hz, 315Hz., 400Hz., 
500Hz, 630Hz, 800Hz, IkHz, 1.25kHz, 1.60kHz, 2.0kHz, 2.5kHz, 3.15kHz, 4.0kHz., 5.0kHz , 
6.3kHz、8.0kHz、10kHz、12.5kHz、16kHz、20kHz。 一 般 来 说 ， 人 耳 可 感受 的 正弦 波 的 范围 
是 从 20Hz 的 低频 声音 到 20kHz 的 高 频 声 。 

2. 声音 波形 

声音 波 波形 属于 正弦 波 ， 拥 有 振幅 和 频率 两 个 特征 ， 振 幅 就 是 音量 ， 频 率 就 是 音调 。 下 
面 调用 Python 的 WAV 声音 处 理 库 以 及 Numpy 科学 计算 库 显示 一 段 声 音 的 波形 。 

显示 声音 波形 数据 的 主要 步骤 如 下 : 

1) 打开 WAV Xt, EH wave ÆR open 方法 ， 主 要 参数 为 文件 名 和 存 取 文件 方式 。 

# 以 读 方 式 打 开 WAV 文档 

f = wave.open(r"back.wav", "rb") 

2) 读 取 格式 信息 ， 使 用 wave 库 的 getparams 方法 。 该 方法 返回 的 信息 中 比较 重要 的 是 
前 4 项 ， 依次 为 通道 数 、 样 本 宽度 、 样 本 频率 、 波 形 数据 长 度 。 

# 读 取 格 式 信 息 

#(nchannels, sampwidth, framerate, nframes, comptype, compname) 


params = f.getparams() 
nchannels, sampwidth, framerate, nframes = params[:4] 


3) 读 取 波 形 数据 ， 波 形 数据 是 WAV 文件 采样 后 生成 的 采样 数据 ， 使 用 wave 库 的 
readframes 方法 读 取 ， 该 方法 返回 的 数据 是 字符 类 型 。 

# 读 取 波 形 数据 

str data = f.readframes (nframes) 

4) 转换 波形 数据 为 Numpy 的 整 型 数组 对 象 。 

# 将 波形 数据 转换 为 数组 


wave data = np.fromstring(str data, dtype=np.short) 
wave data.shape - -1, 2 
wave data - wave data.T 


5) 计算 时 间 轴 。 

time = np.arange(0, nframes) * (1.0 / framerate) 

6) 绘制 波形 ， 绘 制 前 调用 pylab 的 subplot 方法 创建 两 个 上 下 形式 的 绘图 区 ， 每 个 绘图 
区 各 绘制 一 个 声 道 的 数据 。 下 面 程序 中 subplot 方法 的 参数 共 3 位 整数 ， 从 左边 开始 每 位 依 


次 表示 绘图 区 总 数 、 列 数 、 创 建 区 域 所 属 绘图 的 索引 ， 比 如 subplot(212) 表示 绘图 区 有 2 个 ， 
一 共 1 列 ， 当 前 索引 为 第 2 个 绘图 区 。 
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# 绘制 波形 
# 创建 上 边 的 绘图 区 
pl.subplot (211) 
绘制 左 声 道 
pl.plot(time, wave data[0]) 
# 创建 下 边 的 绘图 区 
pl.subplot (212) 
# 绘制 右 声 道 


pl.plot(time, wave data[1], €="g") 
绘制 声音 波形 过 程 的 完整 代码 如 下 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

dcode:myhaspl8qq.com 

#3=13. py 

import wave 

import pylab as pl 

import numpy as np 

print 'working...' 

# 打开 wav 文档 

f = wave.open(r"back.wav", "rb") 

# 读 取 格式 信息 

#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 

nchannels, sampwidth, framerate, nframes - params[:4] 
# 读 取 波形 数据 

str data = f.readframes (nframes) 

f.close() 

# 将 波形 数据 转换 为 数组 

wave data = np.fromstring(str data, dtype-np.short) 
wave data.shape - -1, 2 

wave data - wave data.T 

time - np.arange(0, nframes) * (1.0 / framerate) 

# 绘制 波形 

pl.subplot (211) 

pl.plot(time, wave data[0]) 

pl.subplot(212) 

pl.plot(time, wave data[1], c-"g") 

pl.xlabel("time (seconds)") 

pl.show() 


程序 读 取 声音 文件 后 ,绘制 出 如 图 3-21 所 示 的 波形 。 
这 个 波形 表现 出 : 声音 信号 较 连续 ， 随 着 时 间 的 推移 ， 变 化 不 明显 ,没有 停顿 ， 因 此 ， 


这 是 一 段 音乐 或 噪声 等 声音 而 不 是 人 声 ， 因 为 人 说 话 的 声音 有 个 特点 ， 就 是 每 个 字 之 间 有 少 
量 停顿 。 语 音 停顿 期 间 ， 声 音 采样 软件 采样 不 到 数据 ， 过 了 这 个 停顿 期 ， 波 形 会 有 明显 的 变 
化 ， 如 图 3-22 所 示 波 形 就 是 典型 的 说 话 声音 波形 。 


3.1.8 TARRAT 


音量 的 调节 方式 与 图 像 亮度 调整 类 似 ， 不 同 的 是 音量 调节 的 是 波形 大 小 。 音 量 调 节 
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通过 调节 采样 波形 的 大 小 实现 ， 采样 数 据 变 大 时 ， 声 音 音量 放大 ,采样 数 据 变 小 时 ， 
量 降低 。 音 量 不 能 无 限 调节 ， 音 量 过 大 或 过 小 ， 会 形成 难听 的 噪音 ， 使 声音 失真 。 
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; 02 4 6 8 1012 
图 3-21 声音 波形 绘制 图 3-22 说话 声音 波形 





1. 放大 音量 

下 面 编写 代码 演示 音量 的 放大 。 为 保证 声音 质量 ， 需 要 对 音量 调节 范围 设置 上 限 和 下 限 
(以 原声 音 为 基准 计算 上 限 、 下 限 )。 为 此 ， 编 写 wavechange 函数 ,计算 调 整 后 的 数据 ， 其 参 
数 x 为 每 次 采样 的 波形 数据 ，dwmax 为 上 限 ，dwmin 为 下 限 ， 该 函数 仅 会 将 上 限 与 下 限 之 间 
区 域内 的 数据 放大 为 原来 的 1.5 倍 ， 在 此 区 域外 的 数据 则 设置 为 上 限 或 下 限 。 


def wavechange (x, dwmax, dwmin): 
if x!-0: 
if abs (x)»dwmax: 
x-x/abs(x)*dwmax 
elif abs(x)«dwmin: 
x-x/abs(x)*dwmin 
else: 
xat V5 
return x 
为 保证 放大 后 声音 不 失真 ， 可 采用 以 原声 音 为 基准 的 放大 策略 ， 声 音波 形 图 像 类 似 正弦 
函数 图 像 ， 在 以 时 间 轴 为 X 轴 、 采 样 数 据 为 Y 轴 的 坐标 系 中 ， 波 形 数据 可 正 可 负 ， 上 下 波 
动 。 因 此 ， 以 原声 音 数据 的 最 大 值 为 依据 计算 上 下 限 ， 上 限 为 原声 音 数据 最 大 值 的 88%， 下 
限 为 原声 音 数 据 最 大 值 的 14%。 
使 用 wave data.max() 获取 原声 音波 形 的 最 大 数据 值 (max 函数 返回 数组 的 最 大 值 )， 然 
后 通过 frompyfunc 函数 设置 调节 音量 的 回调 孔 数 为 刚刚 定义 的 wavechange 函数 ， 最 后 对 数 
据 进 行 放 大 调节 。 
wwaibbt.com O000000 


第 3 章 ”计算 平台 应 用 实例 « 55 


# 放大 音量 

change_dwmax=wave_data.max()/100*88 

change dwmin-wave data.max()/100*14 

wave change = np.frompyfunc(wavechange,3,1) 

new wave data -wave change(wave data,change dwmax,change dwmin) 


声音 数据 放大 后 ， 需 要 将 新 数据 写 信 新 的 声音 文件 中 。 首 先 以 写 方式 新 建新 声音 文件 : 
fo = wave.open(r"jg.wav", "wb") 


然后 ， 设 置 新 文件 的 数据 参数 为 源 文件 的 数据 参数 ， 并 写 到 新 声音 文件 中 。 放 大 音量 并 
没有 改变 格式 信息 ， 因 此 ， 放 大 后 的 声音 与 源 声音 的 格式 信息 一 样 。 


# 写 波 形 数据 参数 

print "save new wav files...." 
fo.setnchannels (nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth (sampwidth) 


最 后 调用 writeframes() 方法 ， 以 放大 后 声音 数据 为 参数 将 数据 写 人 新 建 的 声音 文件 中 。 


fo.writeframes (new_str_data) 
下 面 的 代码 演示 了 放大 音量 的 算法 ， 并 绘制 出 了 源 声音 波形 与 放大 后 的 声音 波形 。 


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
fcode:myhasplG8qq.com 
#3-14.py 
import wave 
import pylab as pl 
import numpy as np 
def wavechange(x,dwmax,dwmin): 
if x!20: 
if abs(x)»dwmax: 
x-x/abs(x)*dwmax 
elif abs(x)«dwmin: 
x-x/abs(x)*dwmin 





else: 
zucx*1.5 
return x 
# 打开 wav 文档 
f = wave.open(r"speak.wav", "rb") 
fo - wave.open(r"jg.wav", "wb") 
# 读 取 波 形 数据 


#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 


nchannels, sampwidth, framerate, nframes - params[:4] 
print "read wav data...." 
str data = f.readframes (nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update wav data...." 

wave data - np.fromstring(str data, dtype-np.short) 
params - f.getparams() 
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nchannels, sampwidth, framerate, nframes = params[:4] 
str data = f.readframes (nframes) 

# 放大 音量 

change dwmax-wave data.max()/100*88 

change dwmin-wave data.max()/100*14 

wave change = np.frompyfunc (wavechange,3,1) 

new wave data -wave change(wave data,change dwmax,change dwmin) 
new wave data -new wave data.astype(wave data.dtype) 
new str data-new wave data.tostring() 

# 写 波 形 数据 参数 

print "save new wav files...." 

fo.setnchannels (nchanneils) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes (new str data) 

# 绘制 源 声音 波形 

wave_data.shape = -1, 2 

wave data = wave data.T 

time - np.arange(0, nframes) * (1.0 / framerate) 
pl.subplot (221) 

pl.plot(time, wave data[0]) 

pl.subplot (222) 

pl.plot(time, wave data[1]l, c-"g") 

pl.xlabel("time (seconds)") 

# 绘制 放大 音量 波形 

new_wave_data.shape = -1, 2 

new wave data -new wave data.T 

new time - np.arange(0, nframes) * (1.0 / framerate) 
pl.subplot (223) 

pl.plot(new time,new wave data[0]) 

pl.subplot (224) 

pl.plot(new time, new wave data[1], c-"g") 
pl.xlabel("time (seconds)") 
pl.show() 


如 图 3-23 所 示 波 形 图 中 ， 上 部 为 源 
声音 ， 下 部 显示 了 音量 放大 后 的 波形 。 
下 部 的 波形 数据 范围 为 -20 000 ~ 20 000, 
而 上 部 范围 为 -15 000 ~ 15 000， 下 部 波 
形 整体 比 上 部 大 很 多 。 下 载 本 书 的 代码 
包 运 行 后 ， 可 上 听 到 音量 放大 后 的 声音 
效果 。 


2. 降低 音量 

音量 降低 可 通过 将 采样 波形 变 小 来 
实现 ， 具 体 来 说 ， 就 是 把 每 个 采样 数据 
按 指定 比例 缩小 ， 同 时 将 缩小 幅度 控制 
在 合理 的 范围 内 ,保证 音量 降低 后 声音 Ne 
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仍然 清晰 。 
1) 根据 上 下 限 参数 对 波形 数据 进行 调节 ， 定 义 缩小 波形 数据 的 函数 为 wavechange。 


def wavechange (x, dwmax, dwmin): 
if xiz0: 
if abs(x)«dwmax and abs(x)»dwmin: 
Xxcx*0.5 
else: 
xcx*0.2 
return x 


2) 与 放大 音量 类 似 ， 以 源 声 音波 形 数据 的 最 大 值 为 基准 ， 计 算 上 限 和 下 限 ， 以 wavechange 
为 回调 函数 ， 降 低音 量 。 


# 降低 音量 

change dwmax-wave data.max()/100*1 

change dwmin-wave data.max()/100*0.5 

wave change = np.frompyfunc(wavechange,3,1) 

new wave data -wave change(wave data,change dwmax,change dwmin) 


3 ) 生成 新 波形 数据 。 


new wave data -new wave data.astype(wave data.dtype) 
new str data-new wave data.tostring() 


4 ) 将 数据 写 到 新 声音 文件 。 
# 写 波形 数据 参数 


fo.setnchannels (nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes (new str data) 


下 面 的 代码 演示 了 降低 音量 算法 。 


#!/usr/bin/env python 

# -*- coding: üttf-8 -*- 
#code:myhaspl@qq. com 

#3-15.py 

import wave 

import pylab as pl 

import numpy as np 

print "'working...' 

def wavechange(x,dwmax,dwmin): 


ift xts05 
if abs(x)«dwmax and abs(x)»dwmin: 
xex*u.5 
else: 
x=x* 0-2 
return x 
# 打开 wav 文档 
f = wave.open(r"back.wav", "rb") 
fo - wave.open(r"jg.wav", "wb") 
# 读 取 波形 数据 
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#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 

nchannels, sampwidth, framerate, nframes = params([:4] 
print "read wav data...." 

str data = f.readframes (nframes) 

# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update wav data...." 

wave data - np.fromstring(str data, dtype-np.short) 
params - f.getparams() 

nchannels, sampwidth, framerate, nframes - params[:4] 
str data = f.readframes(nframes) 

# 降低 音量 

change dwmax-wave data.max()/100*1 

change dwmin-wave data.max()/100*0.5 

wave change - np.frompyfunc(wavechange,3,1) 

new wave data -wave change(wave data,change dwmax,change dwmin) 
new wave data -new wave data.astype(wave data.dtype) 
new str data-new wave data.tostring() 

# 写 波 形 数 据 参数 

print "save new wav files...." 

fo.setnchannels (nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes(new str data) 

# 绘制 源 声 音波 形 

wave data.shape = -1, 2 

wave data - wave data.T 

time - np.arange(0, nframes) * (1.0 / framerate) 
pl.subplot (221) 

pl.plot(time, wave, data[0]) 

pl.subplot (222) 

pl.plot (time, wave data[1], c-"g") 

pl.xlabel("time (seconds)") 

# 绘制 降低 音量 波形 

new wave data.shape = -1, 2 

new wave data -new wave data.T 

new time - np.arange(0, nframes) * (1.0 / framerate) 
pl.subplot(223) 

pl.plot(new time,new wave data[0]) 

pl.subplot (224) 

pl.plot(new time, new wave data[l], c-"g") 
pl.xlabel("time (seconds) ") 

pl.show() 


如 图 3-24 所 示 的 波形 图 中 ， 上 面 为 源 声 音 ， 下 面 为 降低 音量 后 的 声音 波形 。 可 明显 看 出 ， 
音量 缩小 后 ， 其 波形 幅度 为 -3000 ~ 3000， 而 源 声 音波 形 范 围 大 很 多 ， 为 -15 000 ~ 15000. 


3.1.9 图像 信息 隐藏 


1. 图 像 隐藏 原理 
言 息 隐藏 是 不 让 除 预 期 接收 者 之 外 的 任何 人 知晓 信息 的 传递 事件 或 者 信息 的 内 容 ， 载 体 
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文件 相对 隐秘 文件 的 大 小 越 大 ， 隐 藏 后 者 就 越 加 容易 。 因 此 ， 数 字 图 像 在 互联 网 和 其 他 传媒 


上 被 广泛 用 于 隐藏 消息 。 

本 节 讲 述 的 图 像 隐藏 原理 是 : 首 
先 从 源 图 中 提取 文字 图 像 信息 ， 并 记 
录 这 个 文字 图 像 信息 像素 点 在 图 像 
和 矩阵 中 的 位 置 ; 然后 ， 对 载体 文件 进 
行 预 处 理 ， 将 蓝 色 像 素 值 全 部 设 为 偶 
数 ; 最 后 ， 将 记录 的 文字 信息 像素 点 
在 载体 文件 对 应 位 置 的 蓝 色 像 素 值 设 
为 奇数 。 解 密 信 息 是 隐藏 信息 的 逆 过 
程 ， 其 过 程 比较 简单 ， 即 提取 载体 文 
件 中 蓝 色 像 素 值 为 奇数 的 像素 点 ， 将 
空白 图 像 中 这 些 像 素 点 对 应 的 位 置 赋 
予 统一 的 着 色 。 

2. 图 像 隐藏 实例 

下 面 用 实例 来 讲解 图 像 信息 隐藏 
技术 。 我 们 的 目标 是 : 将 如 图 3-25 所 











图 3-24 声音 音量 缩小 波形 


示 的 文字 隐藏 在 如 图 3-26 所 示 的 载体 图 片 里 。 要 求 隐藏 后 ， 无 法 察觉 图 中 隐藏 了 信息 。 





图 3-25 ”含有 竺 隐藏 文字 的 图 像 


本 实例 隐藏 信息 的 主要 过 程 如 下 : 


图 3-26 “载体 图 像 


1) 读 取 源 图 像 (将 写 上 需 隐 藏 文字 的 信息 ) 和 载体 图 像 ， 构 造 图 像 矩 阵 


imgl = cv2.imread(fnl) 
img2 - cv2.imread(fn2) 
w-imgl.shape[1] 
h-imgl.shape[0] 


2 ) 在 源 图 像 中 加 上 水 印 文 字 作 为 待 隐 藏 文字 
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# 加 上 需要 隐藏 的 消息 


cv2.putText(imgi1,"hello,world!", (20,300),cv2.FONT HERSHEY PLAIN, 


redcolor, thickness - 2) 


cv2.putText(imgl,"code by myhaspl:myhaspleqqg.com", (20,60),cv2.FONT.. 


HERSHEY PLAIN, 2.0, redcolor, thickness - 2) 
cv2.putText (img1, "Installing Python is generally easy. ", 
HERSHEY PLAIN, 2, redcolor, thickness - 1) 


3) 处 理 隐藏 载体 图 ， 将 所 有 蓝 色 值 变 成 偶数 ， 以 便 加 入 隐藏 信息 。 


# 处 理 隐 藏 载体 图 
# 将 所 有 蓝 色 值 变 成 偶数 
for j in xrange(0,h): 
for i in xrange(0,w): 
if (img2[j,i,0]$2)221: 
imq2[j,i,0]5simg2[3j,1,0]-1 


(1,90),cv2.FONT 


4) 读 取 源 图 像 ， 将 源 图 像 的 文字 像素 点 在 载体 文件 的 对 应 位 置 的 蓝 色 像素 值 设 为 奇数 ， 


将 需要 隐藏 的 信息 写 人 目标 载体 图 。 
# 读 取 源 图 像 ， 并 将 信息 写 入 目标 载体 图 


for j in xrange(0,h): 
for i in xrange(0,w): 
if (img1[j,i,0],img1[j,i,1],imgl1[j,i,2])ssredcolor: 
img2[j,i,0]-img2[j,i,0]-«1 


5) 保存 修改 后 的 目标 载体 图 。 


cv2.imshow('img2-2', img2) 
cv2.imwrite(fn3, img2) 


下 面 的 代码 演示 了 隐藏 信息 的 过 程 。 


*!/usr/bin/env python 
4$-*- coding: utf-8 -*- 
*$code:myhaspl8qq.com 
43-16.py 

import cv2 

import numpy as np 

# 含有 文字 的 图 像 
fnizs"testi.jpg" 

# 载体 文件 
fn2-"test2.jpg" 

# 包含 隐藏 信息 的 载体 文件 
fn3-"secret.png" 
redcolor-(0, 0, 255) 


if | name  -- ' main  ': 
print u' 正在 处 理 中 '， 
# 图 像 大 小 


imgl = cv2.imread(fn1) 
img2 = cv2.imread (fn2) 
w-imgl.shape([1] 
h-imgl.shape[0] 
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# 加 上 需要 隐藏 的 消息 
cv2.putText(img1,"hello,world!", (20,300),cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness - 2) 


cv2.putText(imgl,"code by myhaspl:myhasplGqq.com", (20,60),cv2.FONT . 
HERSHEY PLAIN, 2.0, redcolor, thickness - 2) 
cv2.putText(imgl,"Installing Python is generally easy. ", (1,90),cv2.FONT. 


HERSHEY PLAIN, 2, redcolor, thickness - 1) 


cv2.namedWindow('imgl') 
cv2.imshow('imgl', imgl) 
cv2.namedWwindow('img2-1') 
cv2.imshow('img2-1', img2) 
# 处 理 隐 藏 载体 图 
# 将 所 有 蓝 色 值 变 成 偶数 
for j in xrange(0,h): 

for i in xrange(0,w): 

if (img2[j,i,0]$2)-2-1: 
img2[j,i,0]2img2[j,i,0]-1 

Drink tata 

mirror w-w/2 
# 读 取 源 图 ， 并 将 信息 写 入 目标 图 ， 将 有 信息 的 像素 点 的 蓝 色 值 设 为 奇数 
for j in xrange(0,h): 

for i in xrange(0,w): 

if (img1I[j,i,0],img1[j,i,1],img1[j;,i,2]1)-s5-redcolor: 
img2[j,i,0]-img2[j,i,0]-41 

print f"; 
# 保存 修改 后 的 目标 图 ， 并 显示 
cv2.namedWindow('img2-2') 
cv2.imshow('img2-2', img2) 
cv2.imwrite(fn3, img2) 
cv2.waitKey() 
cv2.destroyAllWindows() 


运行 上 段 代 码 将 信息 隐藏 后 ， 肉 眼 观察 载体 图 像 ， 仍 无 法 察觉 与 之 前 相 比 有 任何 变化 。 
下 面 来 看 看 解密 信息 过 程 。 解 密 信息 与 隐藏 信息 相反 ， 是 隐藏 信息 的 逆 过 程 ， 主 要 步骤 如 下 : 
1) 读 取 载体 文件 及 其 大 小 信息 。 


img = cv2.imread(fn) 
w-img.shape[1] 
h-img.shape[0] 


2) 'EMZSAAMÉOBIE, MEA HREF. 
imginfo -np.zeros((h,w,3), np.uint8) 
3) 绘制 解密 的 水 印 文字 。 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 。 


for j in xrange(0,h): 
for i in xrange(0,w): 
if (img[j,i,0]1$2)2-1: 
inginfo[j,i;1]125255 


4) 显示 隐藏 信息 。 
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cv2.imshow('info', imginfo) 
cv2.imwrite(fn, imginfo) 


下 面 代码 演示 了 解密 信息 的 过 程 。 


#!/usr/bin/env python 
$-*- coding: utf-8 -*- 
#code:myhaspl@aqq.com 
# 解密 文件 
#3-17 .py 
import cv2 
import numpy as np 
fn-"secret.png" 
if name Bc — main CU. 
print 'loading ...' 
print u' 正在 处 理 中 : 
img = cv2.imread(fn) 
w-img.shape[l1] 
h-img.shape[0] 
imginfo -np.zeros((h,w,3), np.uint8) 
for j in xrange(0,h): 
for i in xrange(0,w): 
if fimg[j,1,0]92)2-21: 
# 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 
imginfo[j,i,1]2255 
DEINE "T, 
cv2.imshow('info', imginfo) 
cv2.imwrite(fn, imginfo) 
cv2.waitKey() 
cv2.destroyAllWindows() 


运行 解密 代码 ， 从 载体 文件 中 提取 信息 ， 效 果 如 图 3-27 所 示 。 
3.1.10 ”声音 信息 隐藏 


1. 声音 信息 隐藏 原理 

声音 文件 是 一 个 不 错 的 信息 隐藏 载体 ， 声 音 文件 数据 量 大 ， 能 隐藏 信息 的 容量 也 大 ， 假 
设 每 秒 采 集 44 100 次 ， 如 果 所 有 采样 数据 全 部 利用 上 ， 每 秒 的 声音 可 以 存储 44 100 字 节 的 
数据 ， 不 过 这 样 达 不 到 信息 隐藏 的 效果 ， 只 能 利用 其 中 一 部 分 采样 数据 来 存储 信息 ， 占 有 的 
采样 数据 越 少 ， 信 息 隐 藏 效果 就 越 好 。 

比如 ， 如 图 3-28 所 示 的 波形 是 音乐 的 声音 波形 ， 假 设 某 个 采样 点 的 数据 实际 是 信 
ea oe IE 能 还 原 成 一 段 信息 。 这 种 载体 的 隐藏 信 
息 的 效果 比 图 像 好 ， 一 般 很 难 被 人 发 现 。 

这 里 采用 的 隐藏 策略 是 : 产生 一 段 正 弦 波 的 噪声 ， 然 后 ， 在 这 段 噪声 中 隐藏 一 段 文本 文 
件 的 内 容 。 下 面 以 实例 来 讲解 这 个 过 程 ， nt 将 本 章 前 面 讲 述 的 Python 代码 文件 
3-1.py 隐藏 到 一 段 噪声 中 ， 解 密 者 如 果 不 知道 信息 解密 的 规律 ， 就 无 法 从 噪声 文件 还 原 这 个 
Python 代码 文件 。 
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code by myhaspl:myhaspl@qqd.com 





hello,world! 





图 3-27 解密 后 的 文字 图 3-28 音乐 的 声音 波形 


2. 声音 信息 隐藏 实例 
隐藏 信息 的 具体 过 程 如 下 : 
1) 读 取 需 要 隐藏 的 文本 文件 ， 提 取 其 中 的 文字 信息 。 


# 打开 文档 
fo = wave.open(r"pltest.wav", "wb") 
file object = open('3-l.py') 
CEN S 

all the text - file object.read( ) 
finally: 

file obgject.close( ) 


2 ) 将 文字 转化 为 对 应 的 内 部 编码 (本 例 的 文字 为 英文 字母 和 符号 ， 因 此 转换 为 ASCI 码 )。 


wdata-map(ord,all the text) 
wdata-np.array (wdata) 


3) 设置 噪声 载体 文件 的 波形 参数 。 载 体 文件 是 程序 人 为 生成 ， 所 以 将 幅度 设置 为 适合 


-的 区 域 ， 为 使 载体 噪声 更 接近 于 自然 的 品 声 ， 将 振幅 范围 设置 为 -25 600 ~ 25 600. 
# 设置 波形 参数 
# 采样 率 
framerate = 44100 
# 声 道 数 


nchannels-2 

# 每 位 宽度 

sampwidth-2 

(KE 

nframes -framerate*4 

# 振幅 

base_amplitude = 200 

max amplitude-128*base amplitude 
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4) 计算 每 个 字符 的 间隔 ， 需 要 隐藏 的 若干 个 字符 以 等 间隔 的 形式 分 散在 噪声 数据 中 ， 
即 : 在 噪声 波形 数据 中 ， 每 隔 指定 的 间隔 存放 一 个 字符 。 
# 每 个 字符 的 间隔 


interval- (nframes-10)/lwdata 
5) 生成 空 波形 数据 ， 以 便 写 人 噪声 数据 和 字符 信息 。 
# 每 周期 样本 数 


wave data-np.zeros((nframes), dtype-np.short) 


6) 生成 噪声 数据 ， 并 将 隐藏 文 字 的 字符 写 人 噪声 数据 中 ， 这 一 步 是 关键 ， 也 是 算法 的 
核心 。 算 法 把 整个 采样 的 线性 区 域 分 为 两 类 ， 如 果 当 前 采样 时 间 处 于 第 4 步 计 算 的 间隔 处 ， 
则 表示 此 处 为 加 密 字符 区 (每 个 字符 区 只 能 存放 一 个 字符 )， 写 人 的 数据 为 经 过 加 密 的 字符 ， 
在 间隔 之 前 的 时 间 区 域 则 为 随机 噪声 区 。 

算法 判断 是 否 到 了 指定 的 间隔 处 ， 间 隔 处 是 字符 区 ， 和 否则 是 噪声 区 。 如 果 是 噪声 区 ， 则 
随机 生成 噪声 ; 如 果 是 字符 区 ， 则 将 字符 进行 加 密 ， 写 入 字符 区 。 此 处 使 用 了 简单 的 加 密 算 
法 (实际 应 用 可 使 用 高 强度 的 加 密 算法 )， 加 密 方式 为 : 将 字符 的 ASCII 码 乘 以 指定 的 整数 后 ， 
减 去 64 与 该 整数 的 乘积 。 生 成 的 信息 隐藏 格式 如 表 3-2 所 示 。 


表 3-2 信息 隐藏 格式 
TI ET T — 


算法 代码 如 下 : 
# 写 噪声 数据 和 隐藏 文字 的 字符 


myrand-np.random.rand(nframes) 
for curpos in xrange(0,nframes): 

if curpos $ interval--0 and count«lwdata: 

ERREX F E HER E DIE HUS ACE E E P 
possamp-wdata[count]*base amplitude-64*base amplitude 
count4-1 

elif curpos$60--0: 

# 生成 随机 骂 声 数据 
possamp-int (myrand[curpos]*max amplitude-max amplitude/2) 

else: 
possamp-0 

wave data[curpos]-possamp 


7) 写 波形 数据 。 
# 写 波形 数据 参数 


print "save new wav files...." 
str data-wave data.tostring() 
fo.setnchannels (nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
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fo.setnframes (nframes) 
fo.writeframes(str data) 


下 面 来 看 看 解码 信息 过 程 ， 解 码 信息 是 隐藏 信息 的 逆 算 法 ， 主 要 步 又 如 下 : 
1) 读 取 噪 声 载体 文件 以 及 相关 格式 信息 。 


new wdata-[] 

print u' 正在 从 声音 解码 文件 ' 

fi = wave.open(r"pltest.wav", "rb") 

fi params-fi.getparams() 

fi nframes = fi params[3] 

fi str data-fi.readframes(fi nframes) 

fi wave data- np.fromstring(fi str data, dtype-np.short) 


2) 找到 字符 区 ， 将 其 中 的 字符 解密 并 还 原 成 字符 串 。 


for curpos in xrange(0,nframes): 
if curpos $ interval--0 and count«lwdata: 
possamp-(fi wave data[curpos]«64*base amplitude)/base amplitude 
new wdata.append(possamp) 


count-4-1 
3) 整理 还 原 字 符 串 ， 将 它们 写 和 文件 。 
my the text-"".join(map(chr,new wdata)) 
fmy the text-"",join(map(chr,new wdata)) 
file object - open('mytext.txt', 'w') 


file object.write(my the text) 
file object.close( ) 


下 面 程序 读 取 名 为 3-1.py 的 Python 源 程序 文件 ， 将 该 文本 隐藏 在 声音 文件 中 ， 然 后 打 
开 载 体 声音 文件 ， 将 文本 还 原 为 Python 程序 文件 。 


#!/usr/bin/env python 

f =* coding: utf-8 -*- 
dcode:myhasplGqq.com 

# 将 文件 隐藏 在 声音 之 中 
413-18.py 

import wave 

import pylab as pl 
import numpy as np 


# 编码 

print u' 正在 将 文件 编码 进 声音 ， 

print "generate wav data...." 

# 打开 文档 

fo = wave.open(r"pltest.wav", "wb") 
file object - open('3-1.py') 

try: 


all the text - file object.read( ) 
finally: 

file object.close( ) 
wdata-map(ord,all the text) 
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wdata=np .array (wdata) 
lwdata=len (wdata) 
# 设置 波形 参数 
# 采样 率 
framerate = 44100 
4 声 道 数 
nchannels=2 
每 位 宽度 
sampwidth=2 
EE 
nframes -framerate*4 
# 振幅 
base amplitude - 200 
max amplitude-128*base amplitude 
+ 每 个 字符 的 间隔 
interval= (nframes-10)/lwdata 
# 每 周期 样本 数 
wave data-np.zeros((nframes), dtype-np.short) 
countz0 
# 写 噪声 数据 和 隐藏 文字 的 字符 
myrand=np.random.rand (nframes) 
for curpos in xrange(0,nframes): 
if curpos $ interval--0 and count«lwdata: 
possamp-wdata[count]*base amplitude-64*base amplitude 
count-4-l 
elif curpos$60--0: 
possamp-int (myrand[curpos]*max amplitude-max amplitude/2) 
else: 
possamp-0 
wave data[curpos]|g-possamp 
# 写 波形 数据 参数 
print "save new wav files...." 
str data-wave data.tostring() 
fo.setnchannels (nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.setnframes (nframes) 
fo.writeframes (str. data) 
fo.close() 
# 绘制 波形 
wave data.shape = -1, 2 
wave data - wave data.T 
time - np.arange(0, nframes/2) 
pl.subplot (211) 
pl.plot(time, wave data[0], c="r") 
pl.subplot(212) 
pl.plot (time, wave data[l1], c-"g") 
pl.xlabel("time (seconds)") 
LE 解码 
new wdata-[] 
print u' 正在 从 声音 解码 文件 ， 


fi = wave.open(r"pltest.wav", "rb") 
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fi params-fi.getparams() 
fi nframes - fi params[3] 
fi str data-fi.readframes(fi nframes) 
fi wave data- np.fromstring(fi str data, dtype-np.short) 
count=0 
for curpos in xrange(0,nframes): 
if curpos $ interval--0 and count«lwdata: 
possamp-(fi wave data[curpos]«64*base amplitude) /base amplitude 
new wdata.append(possamp) 


count-^4-1 
my the text-"".join(map(chr,new wdata)) 
file object - open('mytext.txt', 'w') 


file object.write(my the text) 
file object.close( ) 
pl.show() 


运行 这 段 代 码 ， 程 序 输出 了 编码 和 解码 过 程 。 
正在 将 文件 编码 进 声音 


generate wav data.... 
save new wav files.... 


正在 从 声音 解码 文件 
上 面 程序 演示 了 隐藏 信息 与 解码 信息 的 过 程 。 


* 


e 
$ 


* 








程序 运行 后 ， 先 将 Python 源 代码 文件 3-1.py 隐藏 rose nm 一 
在 一 段 噪声 中 。 然 后 ， 从 噪声 中 解码 信息 ， 将 文本 | 
内 容 输出 到 mytext.txt 中 ， 用 记事 本 打开 该 文件 ， 
如 图 3-29 所 示 。 可 以 看 到 解码 后 的 程序 和 源 程序 “| nme ns yA 


ttp :77blog csdn. net/myhaspl’ 


一 样 ， 包 括 空格 、 符 号 及 字母 等 。 Lm eap ce 


print 'loading Ws ...' & fn 


如 图 3-30 所 示 是 程序 运行 后 生成 的 声音 波形 re Eos rne ER 
图 像 ， 很 难看 出 来 哪些 采样 点 隐藏 了 文本 信息 。 下 “| SEIA indons0 
载 本 书 源 码 包 后 ， 可 以 播放 这 段 声音 (运行 3-18. 
py 后 ， 会 产生 声音 文件 pltest.wav)， 只 能 听 出 声音 


是 一 段 很 平常 的 噪声 。 


15 000 
10 000 


图 3-29 解码 后 文件 


5000 
0 
-5000 f | 
-10 000 PIETRA T MARRE, TRIP 
-15 000 














1 | | 1 ee | L E qm J 
0 10000 20000 30000 40000 50000 60000 70000 80000 90000 
图 3-30 隐藏 了 文本 信息 的 波形 
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3. 信息 隐藏 与 解码 总 结 
dee 隐藏 信息 的 算法 过 程 为 : 
读 取 程 序 文本 文件 ， 将 字符 转换 为 ASCII fid 

AER. Acre ， 其 中 采样 数据 用 随机 数 代 替 ， 生 成 随机 
数 的 取 值 范围 为 -15 000 ~ 15 000， 在 某 些 采样 点 上 用 来 自 隐藏 信息 的 字符 字 节 人 代替， 代替 
的 方式 是 将 字 节 对 应 的 ASCII 码 乘 上 某 个 基数 加 一 个 调整 参数 ,代替 的 过 程 是 线性 的 。 

3 ) 将 生成 的 声音 数据 写 和 载体 文件 中 。 

解码 信息 的 算法 过 程 为 : 

1) 读 取 载体 声音 文件 及 其 相关 参数 。 

2) 按照 隐藏 信息 时 的 规律 ,在 正确 的 位 置 读 取 字符 ， 然 后 将 读 取 的 字符 合成 信息 。 

3) 将 信息 写 人 恢复 文件 中 。 


32 R 语言 基础 


R 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 是 统计 计算 和 统计 制图 的 优秀 工具 ， 属 于 
GNU 系统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 。 其 GUI 界面 主要 包括 菜单 、 命 令 控制 台 
在 Windows 平台 下 的 界面 如 图 3-31 所 示 。 


| R version 3.0.0 (2013-04-03) -- "Masked Marvel" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/1386 (32-bit) 


RAE BER. 
EKERI FITURREN 散布 
'1license1) 或 '1icence1) 来 看 散布 的 详细 条件 。 


Loon 有 许多 人 为 之 做 出 了 贡献 
用 'contributors()' 来 看 合作 者 的 详 mR 
| Ri*cizacion 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 8 或 程序 包 - 


”用 'demo() ' 来 看 一 些 示范 程序 ， 用 'aezpl) EC SHDIENDRCENA 或 
I a. help. uu rt() "通过 BT 浏览 器 来 看 帮助 
'an* 





图 3-31 R 的 GUI 界面 
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3.2.1 ”基本 操作 
1. 提示 符 
R 以 “>” 为 shell 提示 符 ，Windows、Linux、MAC 均一 致 。 


2. 获得 帮助 的 方式 
在 RR 中 使 用 help 函数 获取 某 个 命令 或 函数 的 帮助 。 下 面 是 获取 求 平均 值 函 数 的 帮助 函数 : 


> help(mean) 
starting httpd help server ... done> 


输入 上 述 命令 后 ， 显 示 如 下 HTML 形式 的 帮助 文档 : 


Arithmetic Mean 


Generic function for the (trimmed) arithmetic mean. 


## Default 83 method: 
mean(x, trim = O0, na.rm = FALSE, ...) 





如 果 想 进一步 获得 这 个 函数 的 调用 示例 ， 可 以 通过 example 命令 。 


> example (mean) 

mean» x «- c(0:10, 50) 

mean» xm «- mean(x) 

mean» c(xm, mean(x, trim = 0.10) 
[1] 8.75 5.50 


3. 文件 载 入 并 执行 代码 
使 用 source 函数 载 和 并 执行 代码 ， 把 以 下 代码 放 在 一 个 名 为 test.r 的 文件 ， 用 文本 编辑 
TARA. 


x«-c(22,23,44,66); 
y«-mean(x);y 


然后 加 载 执行 ， 查 看 输出 结果 。 


> source("f:/pro/r/test.r") 
> y 

[1] 38.75 

» 5 

[1] 22 23 44 66 
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最 后 将 执行 结果 写 入 文件 。 

> sink("f:/pro/r/test.lis") 
> xX 

> Yy 


打开 test.lis， 可 看 到 以 下 内 容 : 


[1] 22 23 44 66 


[1] 38.75 
如 果 采 用 不 带 参数 的 sink, 将 恢复 结果 。 示 例如 下 : 
> sink() 


[1] 22 23 44 66 


4. 代码 续 行 

在 行 尾 使 用 “+” 可 进行 续 行 。 

x«-c(11,22,33-« 

+ 224 

+ 3333) 

> x[1] 11 22 3388 

另外 ， 需 要 提 一 下 ，R 语言 中 的 注释 可 以 被 放 在 任何 地 方 ， 只 要 是 以 井 号 (#) 开始 ， 到 
行 末 结束 就 可 以 。 

5. 物件 (对 象 集 ) 

在 RR 中 创建 的 单元 为 物件 (对 象 集 )， 这 些 物件 可 以 是 变量 、 数 字数 组 、 字 符 串 、 函 数 ， 
以 及 从 这 些 物件 中 产生 的 更 多 结构 。 

objects) 可 用 来 显示 存储 在 R 中 的 对 象 集 名 字 。 


> objects() 
‘avi ve "xm 


以 上 代码 显示 R 目前 运行 环境 中 有 x 和 xm 两 个 变量 ， 可 以 使 用 rm 移 除 某 个 对 象 。 


> rmí(xm) 




















， Rasen o0 NEN m 
m m (uis paxs o  ———— - Qm 
sr in saam 一 
退出 R 程 序 时 ， 可 以 以 .RData 的 方式 保存 “| imeem timus Tm 
这 些 对 象 集 ， 如 图 3-32 所 示 。 Erde eme 
当下 次 再 启动 R 时 ， 加 载 .RData 文 件 后 ， | My Musi 2012-12-24 10: - 
这 个 对 象 集 会 被 还 原 。 
R version 3.0.0 (2013-04-03) -- "Masked 
Marvel" 


[d 3-32 保存 对 象 集 对 话 框 
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Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/i386 (32-bit) 


原来 保存 的 工作 空间 已 还 原 。 


>x 
[1] 11 22 3388 


3.22 BÆ 


1. 数据 型 向 量 及 其 运算 

最 简单 的 数据 结构 是 数字 型 向 量 ， 它 是 一 个 有 序 的 数字 集合 (这 里 的 序 不 是 指 按 数字 大 
小 排序 ， 是 指数 字 之 前 的 先后 顺序 都 确定 )， 关 于 这 个 序 ， 数 学 上 有 一 个 很 好 的 解释 ， 叫 作 偏 
序 关系 。 

偏 序 关系 又 称 半 序 关 系 。 设 4 是 一 个 非 空 集 ， 已 是 4 上 的 一 个 关系 ,已 适合 下 列 条 件 : 

1) 对 任意 的 a € 4,(a,a) € P, 

2) di (a,b) E P H (b,a) € P, Mj a=b, 

3) Æ (a,b) E P (b,c) € P, W) (a,c) EP， 则 称 已 是 4 上 的 一 个 偏 序 关系 。 带 偏 序 关 系 
的 集合 4 称 为 偏 序 集 或 半 序 集 。 

比如 说 (1,2) 和 (2,1 )， 它 们 两 个 就 不 是 同 个 向 量 ， 因 为 这 两 个 集合 的 序 不 一 样 。 

向 量 的 使 用 方法 很 简单 ， 可 使 用 "ce" 后 跟 括 号 将 向 量 包 围 起 来 ， 即 c( ) 函数 。 如 : 

o y€-0(12,33,12,22) 

sy 

[3] 12 33 12 22 

"<-" 可 以 相当 于 “=”， 就 是 将 这 个 向 量 组 作为 y 这 个 对 象 的 值 ， 也 可 以 使 用 assign() 
函数 。 

= assign("x",c(11,22,15)) 


> X 
[1] 11 22 15 


“-> ”的 作用 与 nen el 


= 6(12,33,12,22)-»z 
>= zZ 
[1] 12 33 12 22 


对 向 量 操作 ， 一 般 是 对 向 量 的 每 个 元 素 进行 操作 ， 比 如 ; 


>g 
[1] 212 33 12 22 

* 2/2 

[1] $.0 16.5 6.0 11,0 


向 量 也 可 以 成 为 c() 中 的 参数 ， 向 量 中 的 元 素 ， 将 合并 成 为 c() 函数 中 的 元 素 : 
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> 0(33,12,66)-»x1 
»ylsc(xl.lll, xl) 

> yL 

[1] 33 12 66 111 33 12 56 


再 来 看 看 数字 型 向 量 运算 。 向 量 之 间 的 运算 是 每 个 元 素 分 别 进行 的 ， 比 如 : 


-x 

[1] 11 22 3388 

> 2*x-»y 

d 

[1] 22 44 6776 

> x43*y-»z 

22 

[1] TT 154 23716 


元 素 个 数 不 一 致 的 向 量 ， 元 素 个 数 较 少 的 向 量 将 循环 扩充 和 元 素 个 数 最 多 的 向 量 一 致 ， 
这 意味 着 元 素数 量 最 多 的 向 量 的 元 素 个 数 必须 是 元 素数 量 小 的 向 量 的 元 素 个 数 的 整数 倍 。 


[1] v 154 23716 


= bb«-c(12,21,32,60,132,59) 
> z/3«bb 
[1] 37.66667 472..83333 793733333 85.66667 183.33333 7961.33333 


对 向 量 元 素 的 操作 ， 可 以 使 用 普通 的 +、-、* 、/、^ 等 操作 符 ， 也 可 以 使 用 更 多 的 函数 ， 
比如 : log. sin, tan, max, mean, sum 等 ， 这 些 函 数 有 些 是 对 每 个 元 素 分 别 计 算 ， 有 些 是 
对 所 有 元 素 一 起 计算 。 





>x 

RII n i 22 3388 

> cos (x)4cos 三 角 函 数 

1] 0.004425698 -0.999960826 0.206187272 
> sin(x)#sin 三 角 函 数 

[1] -0.999990207 -0.008851309 0:978512549 
> sum(x)# Ke 

[1] 3421 

> mean(Xx)# 求 平均 值 

1] 1140.333 


可 以 使 用 sort, length, sqrt 对 向 量 进行 排序 ， 求 长 度 ， 求 平方 根 。 


> c(4,8,9)-»x 

> sgrt (x) 4 Er AR 

[1] 2.000000 2.828427 3.000000 
> length(x)4 长 度 

I1] 3 

> sort (x)-»yt$ 排序 

>y 

[1] 4 8 9 
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2. 复数 向 量 与 规则 向 量 


复数 向 量 的 元 素 都 是 复数 。 复 数 的 表示 方法 是 : 实 部 + 虚 部 i 下 面 的 代码 演示 了 复数 
向 量 的 使 用 方法 。 


»c(2411,3-9i1,4)-»2b 
wow 

[1] 4 8 9 

> b+y->w# 复数 运算 

> W 

[1] 641i 11-9i 13401 


我 们 可 以 使 用 1:m-1 和 1:(m- 10) 产生 规则 的 序列 。 


»c(1:(22)) 


[21] t 2 3 4 5 6 T B8 9 10 IL 12 13 14 15 l6 17 I8 19 


= 11:22) 


20 21 22 


[I] 2 2 3 4 & 6&6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 


冒号 的 优先 权 很 高 ， 看 下 面 这 个 示例 ， 它 产生 范围 在 3-30 之 内 的 公差 为 3 的 等 差 数列 。 


* Ts) 

[1] 3 6 9 12 I5 18 21 24 27 30 
> c(3*1:10) 

[1] 3 6 S9 12 15 18 21 24 27 30 


seq 函数 是 生成 序列 的 最 好 工具 。 Hepa inie esq seq 函数 有 5 个 


by)、 长 度 即 元 素 个 数 (参数 名 称 : length.out)。 


> seq(1,5) 

r L a gA 
> seq(1,5,2) 
[1] 135 


可 以 直接 指定 参数 名 称 ， 传 人 参数 。 


> seg(from-1,to-15,by-2) 

ELT i 3 5 7 91i 13 15 

E 

> seq(from-1,to-15,by-3) 

[1] 1 24 7 i10 13 

> segq(from-1,to-15,length.out-3) 
HI 1 9 i15 


from), IHE (参数 名 称 : 


、 步 长 (参数 名 


第 五 个 参数 是 along.with， 使 用 along.with 参数 中 序列 的 长 度 作为 要 产生 序列 的 长 度 。 


> seq(from-2,along.with-cí1:5)) 

pl] 2 3 4X 5» 6 

> seq(from-2,by-2,along.with-c(1,2,5,8)) 
ii] 2 4 6:8 

= seq(from-2,by-2,along.with-c(1,2,3,8)) 
[1] 24 6 8 
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Oz along.with 参数 中 的 序列 仅 取 其 长 度 ， 和 和 序列 的 内 容 无 关 。 





rep 函数 对 序列 中 的 元 素 进 行 重复 后 拼接 ， 拼 接 的 方式 是 : 使 用 times 参数 将 所 有 元 素 作 
为 整体 拼接 ， 使 用 each 参数 将 元 素 分 别 进行 拼接 。 


> rep(í(x,2) 

[1] 12 32 98 12 32 98 

> rep(x,3) 

[1] 12 32 98 12 32 98 12 32 58 
> rep(x,times-2) 

[1] 12 32 98 12 32 98 

> > rep(x,each-2) 

[1] 12 12 32 32 98 98 


3. 逻辑 型 向 量 

了 解 了 数字 型 向 量 ， 再 来 看 看 逻辑 型 向 量 。 该 向 量 的 元 素 由 罗 辑 型 值 组 成 ， 逻 辑 型 的 值 
有 TRUE (可 缩写 成 T)、FALSE (可 缩写 成 F)、NA ( 即 无 效 ) 等 ， 可 使 用 >、>=、==、!= 等 
逻辑 操作 符 ，and 操作 用 &, or 操作 用 |， 逻 辑 非 使 用 “!”。 


C(12,33,51)-»xX 
>x 
1] 12. 33 51 
> x220-»y 
> y 
1 FALSE TRUE TRUE 
> x»-12-»ydx»12 作为 产生 逻辑 向 量 的 依据 
xy 
1] TRUE TRUE TRUE 
> x»-12&x«30-»y 
e 
1 TRUE FALSE FALSE 
> x»-12|x«30-»y 
> yY 
[1] TRUE TRUE TRUE 
>> l(X»-12&x«30)-»y 
> 
[1] FALSE TRUE TRUE 


无 效 值 或 缺失 值 NA、NaN 主要 用 于 应 付 某 操 作 没 完成 ， 结 果 未 知 的 情况 。 示 例如 下 : 


> C(1:4,NA,2:3)-»x 

>x 

mga 2 2 3 4 NA 2 3 

> is.na(x) 

[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE 








下 面 是 数字 计算 对 NAN 的 处 理 : 
> 0/0 
[1] NaN 
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> 0/0-»y 
> is.na(y) 
[1] TRUE 
> y 

[1] NaN 


4. 字符 串 向 量 
字符 串 用 单 引号 或 双 引 号 包围 ， 示 例如 下 : 


s c("qq", "bb")-»z 
2» z 
[1] Wko fe "bb" 


可 在 字符 串 中 使 用 转 义 符 \: 


\n 新 行 
\r 回 车 
\t tab 
\b 退 格 
Na 鸣叫 
NX N 
Nro! 
hum 


在 字符 串 向 量 的 运算 中 ，paste() 函数 接受 任意 数量 的 参数 ， 可 将 它们 依次 连接 到 字符 串 
向 量 的 元 素 中 ，sep 指定 连接 时 相隔 的 字符 ， 默 认为 单个 空格 。 


> paste(1:12) 
[f Ae uso age coup ose aae mge KE. ang, NDS GEPIDO dude 
> paste("A", 1:6, sep = "") 
[1] "Al" "A2* "A3" "A4" *A5* "Ag* 
> paste("A", 1:6) 
DE] ^A JW uA QU C6ASOESS (FA G4 A Ry" O84 dg 
» paste("A", 1:6, sep - "") 
[1] "ai" "AD" "A3" "ad" "A5" *A6* 
> paste(c("A","B"), 1:10; sSap-c"") 
[1] "A1" "B2" "A3" "B4" "A5" "B6" "A7" "B8" "A9" "Bio" 
> paste(" 4 X£ ", date()) 
[1] “今天 是 Sun Apr 21 14:18:38 2013" 
> 


5. 索引 向 量 
在 逻辑 值 型 索引 中 ， 索 引 向 量 的 元 素 为 逻辑 值 型 ， 逻 辑 值 为 TRUE 的 向 量 将 被 放 在 输出 
结果 中 。 示 例如 下 : 


>x 
[1] iq 22 3388 
> x»22-»jg 

> jg 


[1] FALSE FALSE TRUE 
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> x[jg]->y 

= y 

[1] 3388 

> xix«l100]-»y 
> y 

[1] 4t 22 


> 


在 正 整数 型 索引 中 ， 索 引 向 量 是 正 整数 类 型 ， 用 于 指示 要 哪些 位 置 的 元 素 要 和 输出 到 结果 
中 。 示 例如 下 : 


> x[c(1,2,3,2,1) ]4 以 向 量 作 为 索引 


i 11 22 3388 22 TL 
>Z 
1 11 22 3388 
xs sed] 
31.13 
x X[1:2] 
1] 1i 22 
> xi2:3] 
1 22 3388 








对 于 负数 索引 ， 会 将 除开 索引 以 外 的 所 有 元 素 输出 到 结果 中 。 示 例如 下 : 


= 0 (1222, 88)->X8 
> X 

1] 12 22 88 
wA 
l] 22; 22x 88 
> E[-(122)1]-9Y*X 
=% 
1] 88 

& EL-ULFMI-XY 
x £ 
1] 22 88 


在 字符 串 索 引 中 ， 是 以 字符 串 来 标注 元 素 的 位 置 的 。 示 例如 下 : 


> c(23,26,27)-»age 








c(" RZ" Uv," EE ")-»snames (age) 
> age[c(" KZ ") ]4 DLSE REB TE DS E 9| 
RE 
23 
> age[c(" WE "," £f ")]->mystudent 
> mystudent 
张 三 EE 
23 27 


带 索 引 方 式 的 向 量 对象 可 以 直接 作为 被 赋值 的 对 象 ， 所 有 在 索引 内 的 向 量 元 素 都 会 被 赋 
值 。 示例 如 下 
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26 28 
> age[c(" 张 三 "," 王 五 ")j<=age[c(" Y— "," EA ")]«41 
s age[c(" Ez *, "EX *)J 
K- 王 五 
27 29 
» age[c(" "KZ "," EE ")]«-32 
> aüge[c(* 张 三 "," 3 ")] 
张 三 ER 
32 32 
再 举 个 例子 : 给 所 有 小 于 100 的 元 素 均 加 上 20， 代 码 如 下 : 
> x 
[1] lt 22 3388 
> length(x) 
[1] 3 
=> X[x«100]«-x[x«100]420 
>x 
Ei] 31. 42 3388 


3.23 ”对 象 集 属性 


1. 固有 属性 
对 象 集 的 固有 属性 有 mode 和 length 两 种 ， 相 关 示 例如 下 : 


> xX 

E, 11 22 3388 
> mode(x) 

[1] "numeric" 


其 中 mode 可 理解 为 对 象 集 的 类 型 ， 主 要 有 numericl, complex, logical, character 和 
raw 等 类 型 。mode 的 用 法 如 下 : 


> length (x) 

[1] 3 

> c(1.0-5i,20«51i)-»a 
> mode(a) 

[1] "complex" 


mode 属性 转化 可 完成 数据 类 型 的 转化 。 比 如 ， 使 用 as.character 转化 为 字符 型 等 。 示 例 
如 下 : 


> h«- 5:12 

-h 

[1] 5 5 Ta 9 I0 L3 2 

> as.character (h)4 转化 为 字符 

[1] *5* egr nyn ia ii *qg* CEL w12* 
> c(1.0-5i,204«51i)-»a 

> mode (a) 

[1] "complex" 

> as.character(a)-»c a 
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> ca 
[1] "45x" "20451i" 


2. 设置 对 象 属性 
可 使 用 attr 方法 进行 属性 的 自 定义 。 具 体 方 法 为 : 使 用 attr(object,name) 格式 设置 对 象 属 
示例 如 下 : 


>H 
t1] 5 & 7 8& 9 10 1 12 
» attr(h,"name")«- "test" 
attr(h,"dim")«-c(2,4) 
> h 

Ea T4213 Eas T2] 
[t] 5 7 9 11 
[2 ] 6 8 10 12 
attr(,"name") 
[1] *test" 


3.24 ”因子 和 有 序 因子 


因子 用 来 存储 类 别 变 量 和 有 序 变量 ， 可 用 来 分 组 或 分 类 ， 因 子 表示 分 类 变量 ， 有 序 因子 


表示 有 序 变量 。 


在 RR 语言 中 使 用 factor( 函数 生成 因子 对 象 ， 语 法 是 factor(data,levels,labels,…)， 其 中 


data 是 数据 ，levels 是 因子 水 平 向 量 ，labels 是 因子 的 标签 向 量 。 


> my num«-c(11,22,34,71,14,68,21) 
> factor (my num)-»numsi 生成 my num 分 组 向 量 


生成 因子 对 象 后 ， 输 入 对 象 名 称 ， 可 显示 简单 的 分 类 情况 。 


> nums 

[1] 11 22 34 71 14 68 21 
Levels: 11 14 21 22 34 68 71 
> 


Levels 函数 用 于 生成 因子 向 量 中 的 水 平 〈 去 除 重复 元 素 后 的 元 素 集 )。 示 例如 下 : 


> my mnume-oc(11,22,34,71,14,68,21,22,11,34) 
> factor (my num)-»nums 
» nums 
[1] 11 22 34 71 14 68 21 22 11 34 
Levels: 11 14 21 22 34 68 71 
> levels (nums) 
LL] CTE "14* -2]- "22s w34" wggs qe 


还 可 使 用 ordered KAERA FAT o RAUF : 


> ordered (nums) 

[1] 11 22 34 71 14 68 21 22 11 34 
Levels: 11 « 14 « 21 « 22 « 34 « 68 « 71 
» age <- e(25, 12, 15, 12, 25) 
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> ordered(age, levels = c(25,12,15)) 
[1] 25 12 15 12 25 
Levels: 25 « 12 « 15 
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cut() 函数 将 数据 转换 成 因子 或 有 序 因 子 ， 并 进行 分 组 。 下 面 对 一 组 学 生成 绩 进 行 分 组 。 


= seorec-c( 88, 85, 75, 97, 92, 7T, 7A, 70, 63, 97) 
> cut(score, breaks = 3)$9 XA 7) 3 组 


[1] (85.7,97] (24.3,,85.71 0U504.3,85.71 (85.7,97] (85. 7,97] (74.3,85.7] 


[7] (63,74.3] (635 74.3] (63,74.3] (85.7,97] 
Levels: (63,74.3] (74.3,85.7] (85.7,97] 
> cut (score, breaks = 2)# 将 成 绩 分 为 2 组 


[1] (80,97] (80,97] (63,80] (80,97] (80,97] (63,80] (63,80] (63,80] (63,80] 


[10] (80,97] 
Levels: (63,80] (80,97] 
> 


3.2.5 ”循环 语句 
1. for 循环 


R 语言 的 for 循环 与 Python 类 似 ， 都 是 通过 在 对 象 中 进行 迭代 实现 循环 ,但 R 语言 中 不 


能 在 该 循环 中 直接 设置 起 始 值 、 终 止 值 与 步 长 。 示 例如 下 : 


2«-6() 
xa-(1l210) 
y«-(11:20) 


for (i in 1:length(x))( 
z[i]-x[i]^2-«y[i]l^2 
) 


z 
[1] 122 148 178 212 250 292 338 388 442 500 


2. while 循环 
while 语句 每 次 会 检查 循环 条 件 ， 如 果 条 件 不 再 满足 ， 则 终止 循环 。 示 例如 下 : 


> xeecUL:l0) 


M 二 人 


- i-1 

> while (x[i]^2«10) 
*1 

*tci-i-41 

+ x[i]zx[il^2 

+ 3} 

> 


1l 1 4 3 4 5 6 7 8 9 10 


3.20 ”条 件 语句 


if...else... 是 R 语 言 的 条 件 语句 。 该 语句 通过 检查 执行 条 件 来 确定 是 否 继续 往 下 执行 ， 


果 条 件 满足 ， 则 执行 站 后 面 的 对 应 语句 ， 否 则 执行 else 后 面 的 对 应 语句 。 示 例如 下 : 


c ze-e() 
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x«- (1:10) 

y«-(11:20) 

for (i in 1:length(x))(t 

Xf (fe[i]^3sy[X1^2)) 

z[i]2ox[1]^3 

else 

z[i]=y[i]^2 

} 

Z 

[11 121 144 169 196 225 256 343 512 729 1000 


Vot ot t o4 6v VV 


33 及 语言 科学 计算 
3.3.1 分 类 (组 ) 统计 


R 语言 分 类 统计 主要 包括 数据 分 类 整理 、 统 计 函 数 定义 、 数 据 分 类 统计 3 个 过 程 。 下 面 

以 对 水 果 的 价格 进行 分 类 统计 为 例 说 明 。 

1. 准备 分 组 数据 

> fruit class«-c(" XJR "," ST", dior n EE no XE on T ME run «rV dE 

n EZ " 

" Pere 
2. 平均 价格 统计 
通过 在 tapply 函数 中 指定 mean 函数 为 其 参数 ， 可 实现 分 组 求 平均 值 。 计 算 结果 分 2 行 ， 
行为 组 名 ， 第 2 行为 tapply 函数 最 后 一 个 函数 参数 的 运算 结果 。 示 例如 下 : 


$ 


> tapply(fruit prices,fruit class,mean) 


X Wi 梨子 苹果 
5.366667 2.600000 2.500000 3.850000 


3. 最 低 价格 统计 
通过 在 tapply 函数 中 指定 min 函数 为 其 参数 ， 可 实现 分 组 求 最 小 值 。 示 例如 下 : 
> tapply(fruit prices,fruit class,min) 


草莓 Wer 梨子 XR 
4.8 1.5 245 3.5 


4. 标准 差 统计 
通过 在 tapply 函数 中 指定 sd 函数 为 其 参数 ， 可 实现 分 组 求 标准 差 。 示 例如 下 : 


> tapply(fruit prices,fruit class,sd) 


3d BT 梨子 苹果 
0.5131601 0.7527727 NA 0.4949747 
5. 标准 误 


标准 误 即 样本 均 数 的 标准 差 ， 是 描述 均 数 抽样 分 布 的 离散 程度 及 衡量 均 数 抽样 误差 大 小 
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的 尺度 ， 反 映 的 是 样本 均 数 之 间 的 变异 。 
但 是 ， 请 注意 ， 标 准 误 并 不 是 标准 差 ， 而 是 样本 均值 的 标准 差 ， 是 用 来 衡量 抽样 误差 
的 ， 其 计算 公式 为 : 
S 
Su 
其 中 ,5 为 样本 标准 差 。 标 准 误 越 小 ， 表 明 样 本 统计 量 与 总 体 参 数 的 值 越 接近 ,样本 对 
总 体 越 有 代表 性 ， 用 样本 统计 量 推断 总 体 参 数 的 可 靠 程 度 越 大 。 
可 通过 在 tapply 函数 中 指定 自 定 义 函 数 stderr 为 其 参数 ， 来 实现 分 组 求 标准 误 。 示 例如 下 : 
> stderr <- function(x) sqrt (var (x)/length(x))# HX X stderr 函数 
> tapply(fruit prices,fruit, class,stderr) 


EF 43 苹果 
0.2962731 0.3763863 NA 0.3500000 


3.53.2 ”数组 与 矩阵 基础 
R 提供 了 简单 的 工具 以 处 理 数组 和 矩阵 。 


1. 数组 与 矩阵 的 维 数 
数组 与 矩阵 的 维 数 是 其 行 向 量 (或 列 向 量 ) 生成 的 向 量 空间 的 维 数 ， 可 用 维 数 向 量 表示 ， 
格式 为 CEPR x 列 数 )， 元 素 都 非 负 。 通 常 使 用 dim 函数 来 定义 数组 维度 。 示 例如 下 : 
> dim(my. num)«-c (2,5) t$ 指定 数组 维度 
> my num 
L1) T,21 [,31 ira] [25] 
[3] Lt 34 14 21 11 
125,7 22 qu 68 22 34 
> dim(my num)-«-c(10) 
» my num 
[1] 11 22 34 71 14 68 21 22 11 34 


2. 切片 

切片 是 操作 多 维 数据 (和 矩阵、 数组 等 ) 的 主要 手段 ， 它 以 索引 为 参数 获取 数组 或 矩阵 的 
一 部 分 。 比 如 : 想 要 得 到 多 维 数组 的 一 个 切片 ， 则 以 索引 为 下 标 进 行 访 问 ， 取 得 某 块 数组 。 
使 用 [索引 ] 格式 的 参数 对 数组 和 和 矩阵 完成 切片 操作 。 

索引 的 形式 主要 有 以 下 几 种 : 

1) [indexl index2, .., indexz], indexl, index2 等 分 别 标明 了 元 素 在 相应 维 数 的 索引 , 
将 索引 组 合成 完整 的 位 置 ， 标 注 需要 取出 的 元 素 ， 进 行 切片 ， 形 成 数组 块 。 比 如 : 数组 a 的 
大 小 为 3x5，a[2,4] 表示 第 2 行 第 4 列 的 元 素 。 

2) [c(indexl, index2, .., indexn)], indexl, index2 等 n 个 整数 标注 了 元 素 的 位 置 ， 将 
这 些 标注 的 元 素 取 出 后 ， 组 成 数组 块 。 这 些 元 素 的 位 置 以 列 为 顺序 排列 ， 比 如 ， 数 组 a 的 大 
小 为 3x2(3 行 2 列 )， 切 片 操 作 a[c(1,2,3,4,5,6)] 依次 取出 以 下 元 素 : a[1,1]、a[2,1]，a[3,1]、 
a[1,2]. a[2,2], a[3,2]. 
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切片 操作 示例 如 下 : 


»h 
Dd beal ud 
iS] 12 15 982 
2,] 32 67 321 
> c(h[1,2],h[2,3]) tt 获取 第 工行 第 2 列 数据 (为 15)、 第 2 行 第 3 列 的 数据 (为 321 ) 
na 15 321 
* h[2,] 
1] 32 67 321 
> h[c(1,2,3) ]HJ-H 逐 列 获取 第 1、2、3 个 数据 
1] 12 32 15 
> h[6]### 逐 列 获取 第 6 个 数据 
[17 321 
» h[4] 
[1] 67 


3. 索引 向 量 

数组 可 作为 索引 使 用 ， 且 数组 也 是 向 量 ， 因 此 作为 索引 的 数组 可 称 为 索引 向 量 。 下 面 的 
代码 演示 了 向 量 c(1:3,5:4,3:5) 作为 索引 的 情况 。 

1) 创建 数组 x 和 i，x 是 被 切片 的 数组 ，i 是 索引 向 量 。 


» array(10:20,dimsc(2,5))-»x 
SE 





[,1] [2:2] L,3]1 tid] [,51 
[d 4 10 12 14 16 18 
E21 11 13 T5 IT 19 
> array(c(1:3,5:4,3:5),dimsc(2,3))-»i 
2 ii 
[ad 21 531 
[1,] 1 3 4 
| 2 5 3 


2) 以 i 为 索引 向 量 提取 数组 块 ， 索引 向 量 每 个 元 素 代表 切片 的 位 置 ， 将 这 些 位 置 指向 的 
元 素 提取 出 来 ， 形 成 数组 块 (数组 切片 )。 示 例如 下 : 


= xfi] 
[1] 10 14 12 14 13 12 


3 ) 通过 索引 对 数组 某 个 元 素 赋 值 。 示 例如 下 : 


»xile-111 
> X 

LLI i43 Leal Etl DS] 
[144] ITI Lil 1311 16 18 
[2,] 111 111 T5 17 19 


4. array 函数 
array 图 数 根据 维 数 参数 生成 多 维 数组 ， 它 的 参数 主要 有 两 个 ， 第 一 个 是 需要 形成 数组 
元 素 的 数据 ， 第 二 个 是 dim 参数 提示 维度 。 下 面 的 代码 演示 了 array 函数 创建 数组 的 方法 ， 
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并 通过 dim 函数 获取 数组 的 大 小 。 


»c(1:20)-»h 
> mya«-array (h,dimsc(4,5)) 


> mya 

[12] [,2]3 [,31 f£,41 [e5] 
[1,] al 5 9 13 L2 
[2] 2 6 10 14 18 
[3] 3 " d 15 19 
[4,1] 4 8 12 16 20 


» mydim«-c(2,10) 
> mya«-array (h,dim-c(2,10)) 


» mya 

[1] 1,2] bisy Beal ESL ke] I.7] [,8] I.9] 
[1,] 1 3 5 7 9 1:3. 13 15 17 
[2,] 2 4 6 8 10 12 14 16 18 


» dim(mya) 
[1] 2 10 


array 函数 的 第 一 个 参数 既 可 以 是 向 量 也 可 以 是 单个 值 ， 


> myac-array(1,dim-c(2,10)) 
> mya 


5. 数组 转换 为 向 量 
as.vector 函数 可 将 数组 转换 为 向 量 。 示 例如 下 : 


> x«-array(c(1:10),dimsc(2,5) 


» E 

[,1] L,2] L,31 0,4] [.5] 
[1,] 1 3 5 7 9 
[2] 2 4 6 8 10 


» as.vector(x) 
[1] l Z2 3 4 5 6 T7T 89 $9 L0 


6. matrix 矩阵 
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[,10] 
19 
20 


如 下 所 示 : 


[,10] 


+ 
L4 Ad 


83 


使 用 matrix 函数 可 创建 德 阵 (从 数学 角度 定义 的 矩阵 )， 主 要 参数 为 : data 表示 构造 所 需 
数据 , nrow 为 行 数 , ncol 为 列 数 , byrow 表示 是 否 按 行 顺序 分 配 元 素 (默认 为 FALSE， 不 按 )。 


» matrix(c(1:10),2,5,;TRUE) 

L.L] [62] L3] L4] $55] 
[1,] 1 2 8 4 5 
[25] 6 7 8 9 10 
> matrix(e(1:10),2,5) 

[,1] [,2] [,31 Ctl L5] 
[15] Ji 3 5 7 9 
[2.1 2 4 6 8 10 
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7. 对 角 和 矩阵 

对 角 和 矩阵 是 一 个 除 主 对 角 线 上 的 元 素 之 外 皆 为 0 的 矩阵 ， 对 角 线 上 的 元 素 可 以 为 0 或 其 
他 值 。 通 过 diag 函数 可 生成 和 分 析 对 角 和 矩阵 ， 如 果 参 数 为 一 维 数组 ， 则 将 参数 视 为 对 角 线 元 
素 ， 并 生成 对 角 和 矩阵 ;如 果 参 数 为 一 维 以 上 数组 ， 则 将 参数 视 为 对 角 和 矩阵 ， 对 它 进 行 分 析 ， 
可 提取 对 角 线 元 素 。 相 关 示 例如 下 : 


[111234 59$ 7 8 
> 


> diag (a) ### 生成 对 角 和 矩阵 








L,1] [2] [,3] [4] [,51 [6] [,7] [,8] 
[t 1 0 0 0 0 0 0 0 
[2, 0 2 0 0 0 0 0 0 
[3, 0 0 3 0 0 0 0 0 
[4,] 0 0 0 4 0 0 0 0 
B 0 0 0 0 5 0 0 0 
6,1 0 0 0 0 0 6 0 0 
7,1 0 0 0 0 0 0 1 0 
[8, 0 0 0 0 0 0 0 8 

) 


> a«-array(c(1:16),dimsc(4,4 
> diag (a) tł} 提取 对 角 线 元 素 
[1] l 6 11 i196 


) 


> a 

[,1] L,21 L,3] L4] 
Ds] 1 5 9 13 
(25 ] 2 6 10 14 
[3,] 3 y 131. 15 
[4,] 4 8 12 16 


3.3.3 ”数组 运算 


1. 四 则 运算 
数组 四 则 运算 的 规律 是 : 对 应 位 置 的 元 素 分 别 计算 ， 而 不 是 依据 矩阵 的 数学 运算 法 则 。 


运算 符 为 “+”( 加 )、“-”( 减 )“*”( 乘 ) 等 ， 运 算 优先 级 与 算术 四 则 运算 相同 ， 先 乘 后 加 减 。 
示例 如 下 : 


> mya 

[4,14 [21 L3] 9 
[43,1 pi 3 5 7 9 11 13 15 137 pg 
[24 2 4 6 8 10 12 14 16 18 20 
> myb 

[1] [.2] L,3] CA] Lasl E261 L,71 L8] [913 [p10] 
[1 2 2 2 2 2 2 2 2 2 2 
0251 2 2 2 2 2 2 2 2 2 2 


» mya4myb 
[x31] E421 [43] E TaS] [gb £271 E48] [,93 [10] 


[2,1] 4 6 8 10 12 14 16 18 20 22 
» mya*myb 
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L;1] Baal L.31 [,4] L5] L,91 [.71 bet [9] hE 
DL] 2 6 10 14 18 22 26 30 34 38 
[2,1 4 8 12 16 20 24 28 32 36 40 
> 3*mya*myb 

[,1] ba) E943 La [;5J] bel Lavr DSI [,9] L10] 
[E 6 18 30 42 54 66 78 90 102 114 
[2;] 12 24 36 48 60 72 84 96 108 120 
> 
> mya*myb«myat 先 乘 后 加 

[;3] [;21 Taal L4] [53 D,61 Lavl wsd [L9] I,29] 


ET. | 3 9 15 21 277 33 39 45 54d 57 
[2.5] 6 22. 18 24 30 36 42 48 54 60 
> 

2. 向 量 连 接 


向 量 连接 指 的 是 将 两 个 向 量 通过 某 种 规律 连接 成 一 个 数组 。R 语言 的 cbind 和 rbind 函数 
可 进行 向 量 连 接 ， 其 中 cbind 函数 将 向 量 的 行 转变 为 列 后 再 连接 ，rbind 函数 将 向 量 的 列 转 变 
为 行 后 再 连接 。 示 例如 下 : 

> x2«-c(101:105) 


> xi«-c(1:10) 
> cbind(x1,x2) 


xl x2 
[1] 2. 201 
[2,1 2 102 
[3.,] 3 103 
[4,] 4 104 
[5,] 5 105 
[6,1]  6& 101 
[Fa] 7 102 
[8£,] 8 103 
[9,] 9 104 


[10,] i0: 105 
» rbind(x1,x2) 


[,21 Lag [,9] [£44] [53 S] [7] [48] C91 L,101 
x1 4 2 3 4 5 6 7 8 9 10 
x2 101 102 103 104 105 101 102 103 104 105 


3.34 ”和 矩阵 运算 


1. 矩阵 连接 
R 语言 的 cbind 函数 完成 矩阵 的 横向 连接 ，rbind 函数 完成 矩阵 的 纵向 连接 。 下 面 是 关于 
和 矩阵 的 连接 操作 示例 。 


> X3«-matrix(o(1:10),2,5) 
> x4c«-matrix(c(101:105),2,5) 
5» x3 
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[2:4] 2 4 6 8 10 
> x4 
Ll Ty Ls393 ial [25] 
[i41 101 103 3105 3102 104 
E25] 102 104 101 310» 105 
» cbind(x3,x4) 
[;,1] I;21 I23] L4] EB L61 Lay b8) 1549] L,40] 
[1.1 1 3 5 7 9 101 103 105 102 104 
[2,1] 2 4 6 8 10 102 104 101 103 105 


» rbind(x3,x4) 
[.1] [,2] i3] [,41 I.5] 


T. T 3 5 fi 9 

zd 2 4 6 8 10 

[34] 101 103. 105 à 102 104 

[4,] 102 104 101 103 105 

2. 矩阵 转 置 

线性 代数 将 矩阵 4 的 转 置 ( 记 做 AT) 定义 为 : 
jt A 的 横行 写 为 AT 的 纵 列 ; 

把 4 的 纵 列 写 为 A" 的 横行 。 


RR ERHIAN, mxn RE 4 的 转 置 生成 nxm 和 矩阵 A. 
Ai=A;, 1 <i<n, 1<j<m, 

R 语言 的 t 函数 可 完成 矩阵 转 置 计算 。 
> array (h,dim-c(2,5))-»mya 
> mya 

Lat Maal L4331 al Ls 
Ad 1 3 5 
2,] 2 4 6 
> 七 (mya)### 矩阵 转 置 
[si] [2] 


10 





O o oU] C p3c— 
eo 


7 10 

相对 t 函数 而 言 ， 用 aperm 函数 进行 矩阵 转 置 更 灵活 。aperm 有 两 个 常用 的 参数 ， 第 一 
个 参数 是 需要 转 置 的 矩阵 ， 第 二 个 参数 perm 指示 新 矩阵 相对 于 第 一 个 参数 矩阵 的 维度 下 标 。 
需要 特别 注意 的 是 ， 第 二 个 参数 perm 是 维度 下 标 。 比 如 ， 将 行 转换 为 列 ， 将 列 转换 为 行 ， 
将 行列 次 序 更 换 ， 将 第 一 维 的 元 素 与 第 二 维 的 元 素 互 换 ， 则 将 perm 设 为 c(2,1)。 下 面 的 代码 


演示 了 aperm 函数 的 使 用 方法 。 
> array (h,dim=c (2,5))->mya 
> mya 
[«11 [:21 L314 foal bsg 
[151 1 3 5 7 9 
[25.] 2 4 6 8 10 


2 


> aperm(mya,perm-c(2,1))-»mybii U c(2,1) 为 维度 下 标 进行 转 置 
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> myb 

isi] Lr2d 
[1] q a 
[2,1 3 4 
[33I 5 6 
[4,] 7 8 
[$, ] 9 10 
> 
> array(mya,c(2,2,5))-»myal 
> myal 
X 

LI] [L2] 
EE 1 3 
24] 4 
E ur A 

[,1] [,2] 

" 5 7 
à 6 8 

2 x5 

L1] [,2] 
Lal 9 2 


bo. 

RI E521 
[1,] 3 5 
[2,1 4 6 
z193 

tlt 2a 
[1,] 7 9 
[2,] 8 10 


> aperm(myal,perm-c(2,1,3))-»myb14HE M c(2,1,3) 为 维度 下 标 进行 转 置 
> mybl 


Pond 
[,1] [,2] 
[1,] 1 
2,] 3 4 
r, 2 
[,1] [,2] 
ii 5 6 
d 7 8 
ex 3 
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d] 9 10 
* d. 2 
ret 
[,1] [,2] 
[1,1 3 4 
(d 5 6 
5o s n 
[,1] [,2] 
[1,] 7 8 
[2，] 9 10 


> aperm(myal,perm-c(1,3,2))-»myb1l 


» mybl 
ps os d 

(,11 [D,2] [23] L4] Ley 
[1 1 5 9 3 7 
[35 2 6 10 8 
Pr 

[eh] bezt lr3y asd] L5] 
E131 3 7 1 5 9 
na. 8 2 6 10 
2 
3. 矩阵 乘积 


车 4 为 mxn 和 矩阵 ，B 为 nxr 和 矩阵 ， 则 它们 的 乘积 4B AEKA * B) 会 是 一 个 mxr 
的 矩阵 ， 前 提 是 m 与 n 必须 相同 ， 和 矩阵 乘积 使 用 %*% 操作 符 进行 计算 。 示 例如 下 : 


> a 
bs Lz2J] [233 Ar L251 
ird 1 3 5 7 9 
[2:1 2 4 6 8 10 
> p 
[,31] L,2] 
[iz] i, 6 
[2 2 j^ 
(3, 3 8 
[4, 4 9 
[55 5 10 
> a $*$ b 
[(,1] [,2] 
[L 95 220 
(2; 110 260 
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4. 内 外 积 运 算 
1) 向 量 外 积 。 向 量 的 外 积 是 矩阵 的 克 罗 内 克 积 的 特殊 情况 。 给 定 mx1 列 向 量 u 和 
1xn 行 向 量 v， 它们 的 外 积 u@v 被 定义 为 mxn 和 矩阵 4。 


u 的 v-A-uv 
向 量 外 积 u O v 的 计算 定义 为 : 
bi aib! a»b asbi 
b, aib) cz ab 
有 | P e al a ax an 
b, ab, aba ba 


下 面 的 代码 演示 了 a 和 4 数组 作为 向 量 的 外 积 运算 和 普通 乘法 运算 。 


> b«-array (c(1:4)) 
> a«-array(c(5:6)) 
> b%o%a### 外 积 


LA] [2] 
[5] 5 6 
[2,] 10 12 
[35:] 15 18 
[4,] 20 24 
> b 
[r1] $2 3 4 
>a 
[1] 5 6 


> b«-array(c(1:4)) 
> a«-array(c(5:8)) 
> axDb### 普通 乘法 
(11 512 21 32 
-b 


[11] 12 3 4 
> a 
[11] 5 $6.7 8 
» a$o$b 
[.1] [.2] [.31] [.4] 


[3, ] 5 10 15 20 
[2,] 6 12 18 24 
[3,] 7 14 21 28 
[4,] 8 16 24 32 


> 


此 外 ， 还 可 以 使 用 Outer(ab,“* ”) 替代 %o% 运算 符 进 行 外 积 运算 。 
2) 向 量 内 积 。 向 量 内 积 以 实数 R 上 定义 的 两 个 向 量 为 运算 对 象 ， 返 回 一 个 实数 标量 值 ， 
属于 二 元 运算 ， 它 是 欧 几 里 得 空间 的 标准 内 积 。 
两 个 向 量 a = [aaa] 和 b= [biba b] 的 内 积 定义 为 : 
a*b- Y ajbr-aibytaybyt- - a,b, 


izl 
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R 语言 通过 crossprod 函数 完成 向 量 内 积 计 算 。 示 例如 下 : 


» a«-c(1:3) 

> b<-c (4:6) 

> crossprod(a,b) 
[43] 

[1] 32 

» a«-c(1:3) 


3) ERAR. RBPETIUPUISTESECZT SUECA E SS — 1 EORR PEDIR LBS — PARC, SUE RII 
面 提 到 的 矩阵 乘积 。 除 了 使 用 %*% 操作 符 外 ， 还 可 以 使 用 crossprod 函数 完成 矩阵 内 积 计 
算 。 示 例如 下 : 


> bz-array (c(4:6),dim-c(1,3)) 
> a«-array(c(1:3),dim-c(1,3)) 





= a 
[su] Ls ea 

du] 1 2 3 

> b 
[L1] [221 [+39 

[1 4 5 6 

> crossprod (a,b) ###a 5 b 完成 矩阵 内 积 计算 
trj DID [53] 

[1,] 4 5 6 

[25] 8 10 12 

3,] 12 15 18 

> t(a) $*$ bita 的 转 置 与 b 完成 矩阵 内 积 计算 
iti Ga La 

iaj 4 5 6 

a) & 10 i12 

3,] 12 is 18 


5. 求解 线性 方程 组 
一 般 通 过 solve 函数 来 求解 a%*%x=b 中 的 x 向 量 值 ， 求 解 线性 方程 组 仅 使 用 solve 函数 的 前 
两 个 参数 ， 第 一 个 a 为 系数 矩阵 ， 第 二 个 b 为 常数 项 ， 当 b 缺失 时 ， 默 认为 单位 矩阵 。 示 例如 下 : 


» b 
lll 
LL] 8 
[2,] 9 
> a 
LAI [22] 
ad 1 3 
[2;] 2 4 
» solve(a,b) 
LAT 
[1] 2:8 
[24] 345 
6. 矩阵 求 逆 


通过 solve 函数 可 进行 矩阵 求 逆 计 算 ， 只 指定 1 个 参数 ( 待 求 逆 的 矩阵 ) 即 可 。 示 例如 下 : 
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[.1] [,2 


7. 矩阵 的 特征 值 求解 

1) 特征 值 概念 。4 是 4 的 特征 值 等 价 于 线性 系统 (AA) v= 0 (其 中 7 是 单位 矩阵 ) 有 
非 零 解 v (一 个 特征 向 量 )， 特 征 值 存在 等 价 于 下 面 行 列 式 成 立 : 

det(A-ADy-0 

函数 pa(4)=det(4-4D 是 一 个 关于 4 的 多 项 式 ， 称 为 4 的 特征 多 项 式 。 和 矩阵 的 特征 值 也 就 
是 其 特征 多 项 式 的 零点 。 

求 一 个 矩阵 4 的 特征 值 可 以 通过 求解 方程 pa(4)=0 来 得 到 。 

2) R 语言 求解 特征 值 。 利 用 R 语言 的 eigen 函数 可 求解 特征 值 ， 调 用 格式 如 下 : 


eigen(x, symmetric, only.values = FALSE) 


其 中 ,x 为 需要 求 特征 值 的 矩阵 ; symmetric EEN, KRENN, IREE 
是 一 个 方形 矩阵 ， 其 转 置 矩阵 和 自身 相等 ， 即 : 4=4"， 对 称 和 矩阵 4=(ay) 从 右上 至 左下 方向 的 
元 素 以 主 对 角 线 (左上 至 右 下 ) 为 轴 对 称 ， 即 : ajaj; only.values 如 果 为 TRUE， 则 只 返回 
特征 值 ， 和 否则 返回 特征 值 和 特征 向 量 。 

下 面 的 代码 演示 了 eigen 函数 计算 特征 值 的 方法 。 


> a«-array(c(1:16),dim-c(4,4)) 

> eigen(a)iHt 计算 a 的 特征 值 

$values 

[1] 3.620937e401 -2.209373e«00 1.599839e-15 7.166935e-16 


$vectors 
[,1] [5:21] [,3] [,4] 
] 0.4140028 0-82289268 -0.5477226 0.1125155 
[2,] 0.4688206 10.42193991 20.7302967 20.2495210 
] 0.5236384 0.02098714 4.0.1825742 -0.8365883 
] 0.5784562 -0.37996563 -0.3651484 0.4745519 


» eigen(a,only.values-FALSE) 
$values 
[1] $5.3722813 -0.3722813 


$vectors 
[4,1] [42] 
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[1,] -0.5657675 -0.9093767 
[2,] -0.8245648 0.4159736 


8. 求解 矩阵 行列 式 

行列 式 是 线性 代数 中 的 一 个 概念 ， 将 一 个 nxn 的 矩阵 4 映射 到 一 个 标量 ， 记 作 det(A) 
或 |4|。 行列 式 可 看 作 是 有 向 面积 的 概念 在 一 般 的 欧 几 里 得 空间 中 的 推广 。 

比如 ,假设 矩阵 4 定义 为 : 


则 矩阵 A 的 行列 式 |4| 可 定义 为 : 








g hi 
R 语言 的 det 函数 可 求解 矩阵 对 应 的 行列 式 值 ， 即 : 已 知 和 矩阵 4， 求解 dj。 示例 如 下 : 


> a«-array(c(1:4),dim-c(2,2)) 
> det (x) 
[1] -2 


9. 奇异 分 解 
奇异 值 分 解 是 线性 代数 中 一 种 重要 的 矩阵 分 解 ， 在 信号 处 理 、 统 计 学 等 领域 有 重要 应 
用 。 假 设 M 是 一 个 mxn 阶 矩 了 泗 ， 其 中 的 元 素 全 部 属于 域 K (实数 域 或 复数 域 )。 设 存在 一 个 
分 解 使 得 : 
M-UXV* 


Hp UE mxm SAER; X EEE mx n RAEE, V* (Bl V g3:9gfe m 是 
n x n 阶 西 矩 阵 。 


这 种 分 解 称 作 M 的 奇异 值 分 解 ， 对 角 线 上 的 元 素 Zu BUS M 的 奇异 值 。 
使 用 RR 语言 的 svd 函数 可 完成 奇异 分 解 。 示 例如 下 : 


> array(c(1:16),dimsc(4,4))-»a 
>a 

[Lay Lal faal L4] 
[DL] UR 5 9 13 
25] 2 6 10 14 
[3,] 3 b 11 15 
[4,] 4 8 12 16 
> svd(a)iHHE 奇异 分 解 
$d 
[1] 3.862266e«01 2.071323e«00 1.291897e-15 6.318048e-16 
$u 

[4,1] [,2] [r3] [,4] 





[1,] -0.4284124 -0.7186535 0.5462756 -0.0397869 
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[2,] =0.4743725 -0.2738078 -0.6987120 0.4602190 
[3,] -0.5203326 0.1710379 -0.2414027 -0.8010772 
[4,] -0.5662928 0.6158835 40.3938391 20.3806452 
$v 

[4,1] [,2] [,3] [,4] 
[15 -0.1347221 .00.82574206 -0.4654637 -0.2886928 


] 

] -0.3407577  Á0.42881720 0.4054394 0.7318599 
[3,] -0.5467933 .0.03189234 00.5855124 -0.5976414 

] -0.7528288 -0.36503251 -0.5254881 0.1544743 


34 及 话 言 计 算 实 例 
3.4.1 学 生 数 据 集 读 写 

下 面 演示 R 语言 对 学 生 数 据 集 的 操作 。R 语言 可 以 使 用 list (列表 ) 组 件 创 建 与 读 写 学 生 
数据 ， 该 组 件 通 常用 来 容纳 一 个 数据 集 ， 其 中 包含 不 同 的 数据 类 型 。 

1) 创建 学 生 数据 集 (创建 列表 的 语法 是 : list (字段 1= 组 件 1, 字段 2 = 组 件 2，… ))， 
学 生 数 据 集 由 3 个 不 同类 型 的 数据 组 成 : name (姓名 ， 类 型 为 字符 型 )、class (班级 ， 类 型 为 
字符 型 )、ages (年 龄 ， 类 型 为 数值 型 ) 。 


> list(name-"students",class-"101",stdt.ages-c(22,25,20),stdt.name-c("zhangsang", 
"lisi","wangwu"))-»mystudents 


2) 读 取 列 表 。 下 面 的 代码 读 取 刚才 创建 的 学 生 数 据 集 : 


> mystudents 
$name 
[1] "students" 


$class 
r1] "101" 


$stdt.ages 
[1] 22 25 20 


$stdt.name 
[1] "zhangsang" "lisi" "wangwu" 


3) 获取 学 生 数据 集 的 字段 总 数 (通过 length 返回 list 组 件 的 数量 )。 


2 length (mystudents) 
[1] 4 


4) 查看 数据 集中 所 有 学 生 的 姓名 和 年 龄 (通过 “列表 变量 名 $ 字段 名 ”提取 组 件 内 容 )。 


> c(mystudents$stdt.name,mystudents$stdt.ages) 
[1] "zhangsang" "lisi" "wangwu" W22" "255 "20" 


此 外 ，R 语言 还 提供 了 一 个 很 不 错 的 list 组 件 data.frame， 它 内 部 可 拥有 很 多 组 件 。 下 面 
接着 以 学 生 数据 为 例 讲 解 data.frame。 
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1) 创建 data.frame 组 件 ， 存 储 学 生 数 据 。 


SG i — H9 

> mysts 
name age 

1 zhangsang 22 

2 lisi 25 

3 wangwu 20 

2) 将 数据 集中 的 年 龄 都 增长 1 岁 ( 随 着 新 的 一 年 到 来 ， 学 生 们 都 长 大 了 1 岁 )， 完 成 这 
个 操作 可 使 用 attach 和 detach 方法 。 

前 面 一 直 用 $ 符号 访问 list 列表 的 字段 ， 当 R 语言 的 代码 较 多 时 ， 列 表 组 件 名 前 缀 访问 
字段 很 不 方便 ， 因 此 ，R 语言 提供 了 另 一 对 非常 有 用 的 工具 attach 和 detach: attach 把 数据 集 
的 所 有 字段 复制 一 份 副本 ， 绑 定 在 搜索 路 径 ， 这 样 可 以 直接 读 取 它们 ( 仅 能 读 取 ， 写 回 没 有 
意义 ， 因 为 这 只 是 副本 而 已 )， 无 需 显 示 表 明 列 表 名 字 ; detach 则 进行 解 绑 。 

1) 用 attach 将 学 生 数 据 集 的 字段 副本 绑 定 在 搜索 路 径 中 。 

> attach(mysts) 

> age 

[i1] 22 25 20 


[1] zhangsang lisi wangwu 
Levels: lisi wangwu zhangsang 


2) 将 绑 定 的 age 字段 副本 加 1， 并 显示 更 新 后 的 学 生 数 据 。 


> age+l->mysts$age 
> mysts 
name age 
1 zhangsang 23 
2 lisi 26 
3 wangwu 21 


3) 使 用 detach 将 字段 副本 从 搜索 路 径 上 删除 〈( 解 绑 )。 


> detach(mysts) 

> age 

错误 : 找 不 到 对 象 'age' 
> name 


错误 : 找 不 到 对 象 'name' 
3.4» ”最 小 二 乘法 拟 合 
1. 最 小 二 乘法 与 回归 
最 小 二 乘法 是 一 种 数学 优化 技术 ， 它 通过 最 小 化 误差 的 平方 和 找到 一 组 数据 的 最 佳 函数 匹配 。 


假设 存在 (x, y) 这 两 个 变量 ,对 于 一 系列 的 x 变量 值 ， 有 一 系列 的 y 值 与 其 对 应 ， 可 以 
找到 这 两 个 变量 之 间 的 相互 关系 。 比 如 : 对 于 一 次 函数 来 说 ， 可 将 这 些 ( x, y) 值 标注 在 直角 
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坐标 系统 ， 从 而 得 到 一 条 直线 ， 这 些 点 就 在 这 条 直线 附近 。 那 么 ， 直 线 方程 的 定义 为 : 
y=kx+b 
其 中 : k, b 是 任意 实数 , 大 为 斜率 ，2 为 截 距 。 
下 面 以 mm=3x+12 和 y=6x+12 为 例 进行 分 析 。 如 图 3-33 所 示 ， 实 线 为 y 的 图 像 ， 虚 线 为 
y» 的 图 像 。 从 图 像 能 直观 看 出 ， 和 斜率 越 大 ， 直 线 越 了 汗 。y 的 斜率 是 3， 载 距 为 12 ; y 的 斜率 
是 6， 截 距 为 12， yy 方程 的 图 像 明显 比 y BE. 

















图 3-33 ”直线 的 图 像 


图 3-33 中 标注 的 圆圈 和 星 号 为 (x, y). 格式 表示 的 二 维 数据 点 ， 很 明显 ， 圆 圈 的 数据 点 位 
于 y=3x+12 上 ， 而 星 号 的 数据 点 位 于 y=6x+12 上 。 这 些 二 维 数据 点 被 mn=3x+12 和 ys=6x+12 
方程 的 图 像 连 接 。 这 样 做 的 好 处 是 ， 我 们 不 需要 记忆 这 些 数 据点 的 坐标 就 能 预测 类 似 数 据点 
的 位 置 。 比 如 说 , 已 知 x 为 1.5 时 ， 想 要 求 圆 圈 数 据点 的 坐标 ， 可 直接 将 x=1.5 代入 yi 方程 
得 到 : 

y=1.5 x 3+12=16.5 

这 样 就 可 用 y=kre+b 形式 的 一 次 方程 拟 合 数据 点 ， 这 个 过 程 为 线性 拟 合 。 拟 合 的 目标 是 
这 些 点 到 这 条 直线 的 距离 的 平方 和 最 小 。 最 小 二 乘法 是 效果 较 好 的 线性 拟 合 方法 ， 最 小 二 乘 
法 拟 合 数据 点 的 过 程 就 是 对 数据 做 回归 分 析 ， 我 们 把 类 似 图 中 的 这 几 条 直线 称 为 回归 线 。 


2. 最 小 二 乘法 拟 合 

R 语言 提供 了 lsift 函数 ， 可 完成 最 小 二 乘法 拟 合 ， 其 主要 参数 如 下 。 

OX: 一 个 矩阵 的 行 对 应 的 情况 和 其 列 对 应 为 变量 。 

OY: 结果 ， 可 以 是 一 个 矩阵 。 

口 Wt: 可 选 参数 ， 加 权 最 小 二 乘法 的 执行 权重 向 量 。 

O Intercept: 是 否 应 使 用 截 距 项 。 

O Tolerance: 公差 将 用 于 和 矩阵 分 解 。 

口 Yname: 用 于 啊 应 变量 的 名 称 。 

下 面 来 看 看 y=2x 回归 方程 拟 合 ， 这 里 以 x = (1,2,3,4), y= (2,4,6,8) 为 例 在 R 中 进行 
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数据 拟 合 。 


> y«-c(2,4,6,8) 

> 3€-0c(1,2,3,4) 

> lsfit(x,y)4 下 面 的 x 为 常数 项 ，Intercept 为 截 距 
$coefficients 

Intercept 


上 述 拟 合 结果 中 ，Intercept 项 表示 截 距 ，x 项 表示 方程 的 x 变量 的 常数 项 ， 因 此 ， 回 归 
方程 为 y=2x+0=2x。 

再 来 看 看 y=2x+3 回归 方程 拟 合 ,， 设 截 距 为 3。 修改 刚才 的 方程 ， 假 设 回 归 线 为 : y=2x+3。 

1) 根据 回归 线 构造 x 和 y 值 。 


> y«-c(5,7,9,11) 
» x«-c(1,2,3,4) 


2) 执行 lsfit0 函数 进行 拟 合 。 


> lsfit(x,y) 
$coefficients 
Intercept 

3 2 


上 面 Isfit() 函数 的 运行 结果 表明 ， 这 些 数据 点 的 回归 方程 为 y=2x+3, 


3.4.3 ”交叉 因子 频率 分 析 


交叉 因子 频率 分 析 的 作用 在 于 分 析 数 据 的 分 布 区 间 及 其 统计 指标 。 下 面 举例 说 明 分 析 过 程 。 

1) 划分 数据 分 布 区 间 。 使 用 cut 函数 将 变量 中 存储 的 数字 划分 到 5 个 分 布 区 间 : 
[11,15]. [15,19], [19,23], [23,27]. [27,31] 示例 如 下 : 

»y«-6(11,22,13,14,11,22,31,31,31,14) 

> cut(y,5)-»cuty 

> cuty 

[1] (11,15] (19,23] 411,15] (21,457 (11,15] [19,23] (274,31] (27,31] (27,31] 
LLOJ 4(11,T5] 
Levels: (11,15] (15,19] (19,23] (23,271 (27,31] 


2) 使 用 table 函数 统计 数据 在 每 个 区 间 出 现 的 频率 。 代 码 如 下 : 


> table(cuty) 
prm (15,19] (19,23] (23,27] (27,31] 
5 0 2 0 3 
3) 使 用 hist 函数 生成 分 布 直方 图 ， 以 便 更 直观 地 观察 数据 分 布 情 况 ， 如 图 3-34 所 示 。 
通过 指定 breaks 参数 (设置 为 各 区 间 的 边界 值 ) 和 axes 参数 (设置 为 FALSE 表示 手动 画 刻 
度 )， 将 数据 在 table 函数 生成 的 区 间 内 进行 划分 。 代 码 如 下 : 
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> bins«-seq(min(y),max(y),by-4) 

> hist(y,breaks-bins,col-"lightblue",axes-FALSE) 
> axis(1,bins) 

> axis(2) 


结合 table 函数 的 执行 结果 以 及 hist 函数 生成 的 直方 图 ， 可 得 到 以 下 结论 : 

1) 分 析 table 函数 的 执行 结果 可 看 出 ， 数 据 主要 集中 在 [11,15] 区 间 中 ，[11,15] KEA 
分 布 的 数字 最 多 ,该 区 间 内 有 5 个 数字 。 此 外 , 在 [15,19]、[23,27] 区 间 中 没有 数据 分 布 ， 变 
量 y 中 的 数据 在 这 两 个 区 间 内 出 现 频率 为 0。 

2) 从 图 3-34 中 可 观察 到 ， 数 据 分 布 情况 与 table 函数 执行 结果 相 吻 合 。 


3.4.4 [RH] 量 模 长 计算 Histogram of y 





s 
向 量 模 长 即 欧 几 里 得 范 数 ,在 n 维 欧 几 里 得 空间 R, 上 ， 向 L4 
量 x= (x, x2,…, Xn) 的 长 度 定义 为 :| xz = [xtX E 3 
根据 勾 股 定理 ， 它 给 出 了 从 原点 到 点 x 之 间 的 距离 。 E 2 
1. 模 长 函数 定义 EM E : 
R 拥 有 自 定义 函数 功能 ， 可 按 如 下 格式 定义 : 和 
函数 名 <-function( 5% 1, 542, ..., SAn) M 
函数 体 图 3-34 分 布 直 方 图 


} 


下 面 定 义 求 三 维 向 量 模 长 的 vector length 函数 ， 完 成 模 长 计算 。 
> vector length«-function(x1,x2,x3)( 
+ vlength«-sqgrt (x1^24x2^24x3^2) 

* vlength 
r 


} 


2. 模 长 计算 
调用 vector length 函数 ， 计 算 向 量 [12,33,19] 的 模 长 。 


> vector length(12,33,19) 
[1] 39.92493 


> 


N 维 向 量 的 模 长 计算 与 三 维 模 长 类 似 。 下 面 重新 定义 vectorn length 函数 ， 并 调用 它 计 
算 任意 维度 向 量 的 模 长 。 


vectorn length«-function(x)( 
temp«-0 

for (i in 1:1length(x))t( 
temp«-temp-«x[i]^2 

} 

vlength«-sqrt (temp) 

vlength 

) 


oA GG GA RN 


ww ai bbt. com r1 HB DL BL O 


98 


4 第 二 部 分 基 础 篇 


># 下 面 调用 新 的 Vectorn_length 函数 计算 模 长 
> vectorn length(c(11,22,33,44,55)) 
[1] 81.578818 

> vectorn length(c(11,22,33,55)) 

[1] 68.69498 


3.4.5” 欧 氏 距 离 计 算 


欧 氏 距离 ( Euclid Distance) 是 在 维 空间 中 两 个 点 之 间 的 真实 距离 ，n 维 欧 氏 空间 的 每 


个 点 可 以 表示 为 (x[1], x[2], …, x), X= (x[1], x[2], 77 x[n]) 和 二 O1], y[2],…, yDg]) 这 两 个 
点 之 间 的 距离 d(X, 了 定义 为 下 面 的 公式 : 


dX, Y) = sqrt (X ( Cx] [] 1^2 )) 其 中 i= 12, 
利用 R 语言 的 操作 符 自 定义 功能 完成 欧 氏 距离 计算 ,操作 符 的 定义 使 用 % 符号 % 的 方 


式 定义 ， 实 际 使 用 时 ，% 也 属于 操作 符 的 一 部 分 。 操 作 符 的 定义 格式 如 下 : 


操作 符 名 <-function ( 参数 1， 参 数 2，. . .， 参 数 ) { 
语句 
} 


下 面 定义 % ~ % 操作 符 ， 并 计算 二 维 空间 的 欧 氏 距离 。 示 例如 下 : 


> "$-$"--function(x1,x2)í( 


+ temp«-0 

+ for (i in 1:1length(x1))( 

+ temp«-temp-(xl[i]-x2[il)^2 
t+} 

+ edis«-sqrt (temp) 

* edis 

m 


) 
># 使 用 %~ 当 操作 符 ， 计 算 二 维 空间 的 欧 氏 距离 
> c(1,2,3) $&-$ c(5,6,7) 
[1] 6.928203 
> 


可 以 将 计算 扩展 到 n 维 空间 中 。 使 用 R 语言 的 不 定数 量 的 函数 参数 机 制 ， 来 定义 n Hes 


间 的 欧 氏 距离 函数 mycount。 示 例如 下 : 


> mycount«-function(...)( 
+ temp-0 

+ for (i in €6(...))( 

+ temp-temp«l 

€ 于 

* temp 

* ol 

» mycount(11;22;33) 
[1] 3 

> mycount(11,22,33,66) 
[1] 4 

» mycount(11,22,66) 
I1] 3 
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3.5 ”小结 


本 章 对 Python 语言 和 RR 语言 的 语法 基础 以 及 相关 计算 平台 API 进行 了 讲述 ， 同 时 ， 用 
大 量 实例 讲解 了 相关 计算 平台 的 实际 操作 。 

Python 语言 和 R 语言 是 本 书 讲解 机 器 学 习 用 到 的 主要 语言 ， 也 是 机 器 学 习 工 程 应 用 中 可 
能 用 到 的 编程 语言 ， 在 此 建议 大 家 平时 多 阅读 及 语言 和 了 Python 语言 的 官网 教程 和 相关 计算 
平台 资料 ， 加 深 对 它们 的 理解 。 

因 本 书 篇 幅 有 限 ， 更 多 的 关于 R 语言 和 Python 语言 的 资料 可 以 查询 相关 官网 。 下 面 列 
举 了 常用 的 官网 链接 。 

R 语言 文档 资料 链接 : 

http://cran.r-project.org/manuals.html 

Python 科学 计算 库 文档 资料 链接 : 

http://docs.python.org/2/ 

http://docs.scipy.org/doc/ 

http://docs.opencv.org/master/modules/refman.html 

从 下 章 开 始 ， 我 们 将 正式 进入 机 器 学 习 和 统计 分 析 的 实战 。 建 议 大 家 在 浏览 器 中 将 上 面 
的 文档 链接 收藏 ， 以 便 更 好 地 理解 本 书 内 容 。 此 外 ， 从 本 章 开 始 ， 每 章 小 结 后 均 有 思考 题 ， 
希望 大 家 在 阅读 本 书 的 过 程 中 ， 多 动手 ， 多 上 机 操作 ， 理 论 联系 实践 才 是 王道 。 


思考 题 
(1) 本 章 中 提 到 了 Python 将 信息 隐藏 在 声音 和 图 像 载 体 文件 的 方法 ， 能 不 能 将 隐藏 了 
信息 的 图 像 载体 文件 隐藏 在 一 段 音乐 之 中 ? 


QE 可 以 考虑 先 将 隐藏 信息 的 图 像 矩 阵 读 入 ， 然 后 将 其 作为 原始 数据 混 进 WAV 格式 的 
音乐 文件 之 中 ， 再 用 原始 音乐 文件 作为 解码 的 密 钥 ， 解 码 图 像 数据 后 ， 用 本 章 介 绍 的 
方法 从 图 像 数据 中 恢复 文字 信息 。 


(2) HIR 语言 分 析 一 个 数据 集 的 数据 ， 将 数据 分 为 适当 的 区 间 ， 然 后 统计 数据 在 每 个 区 
间 的 分 布 数量 ， 并 作出 直方 图 。 





OE 用 因子 频率 分 析 方法 实现 。 

(3) HER 语言 在 x 和 ?之 间 建 立 回 归 模 型 ， 得 出 回归 直线 方程 , x=[1,3,8,9], y=[2,8,23,80] 
oz 使 用 及 语言 的 回归 计算 函数 分 析 。 
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生产 环境 基础 


机 器 学 习 的 任务 是 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 重 新 组 织 已 有 的 知识 结 
构 使 之 不 断 改 善 自身 的 性 能 ， 它 是 人 工 智能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 

从 目前 的 发 展 情形 来 看 ， 机 器 学 习 主 要 依靠 各 种 算法 来 实现 ， 比 如 : 神经 网 络 、SVM、 
决策 树 、K 近邻 、K-Means 、 回 归 算 法 等 。 而 算法 是 对 特定 问题 求解 过 程 的 描述 ， 是 为 解决 
某 一 特定 问题 而 采取 的 具体 有 限 的 操作 步骤 。 随 着 计算 机 科学 技术 的 发 展 ， 算 法 在 计算 机 方 
面 已 有 了 广泛 的 发 展 及 应 用 。 算 法 可 理解 为 计算 机 指令 的 有 限 序列 ， 每 条 指令 完成 一 个 或 多 
个 操作 ， 它 是 描述 计算 机 程序 行为 的 语言 ， 是 让 程序 变 得 最 为 简洁 的 思考 方式 。 程 序 在 调试 
完毕 后 ， 需 要 投入 到 实际 运行 阶段 ， 这 个 阶段 需要 一 个 运行 平台 ， 这 就 是 生产 环境 。 

在 工业 界 ， 生 产 环境 主要 指 生产 现场 中 进行 制造 的 地 点 ， 包 括 生产 工装 、 量 具 、 工 艺 
过 程 、 材 料 、 操 作者 、 环 境 和 过 程 设置 。 在 软件 工程 领域 界 ,“ 生 产 环境 ”一 词 是 指 软件 调 
试 完 毕 并 正式 启用 后 实际 和 运行 的 环境 。 在 该 环境 下 ， 软 件 系统 运行 的 目标 是 稳定 、 安 全 、 可 
靠 。 目 前 ， 生 产 环境 中 最 常用 的 是 Windows Server 和 Linux/UNIX 两 种 ， 考 虑 到 读者 普遍 比 
较 熟 悉 Windows 系统 ， 本 章 将 重点 讲解 Linux 下 的 生产 环境 基础 。 


4.1 Windows Server 2008 基础 


以 Windows Server 2008 作为 生产 环境 ， 可 开发 、 提 供 和 管理 丰富 的 企业 级 应 用 程 
序 ， 充 分 利用 其 提供 的 高 度 安全 的 网 络 基 础 架构 ， 提 高 和 增加 技术 的 效率 与 价值 。Windows 
Server 2008 建立 在 网 络 和 虚拟 化 技术 之 上 ， 可 提高 基础 服务 器 设备 的 可 靠 性 和 灵活 性 。 新 
的 虚拟 化 工具 、 网 络 资源 和 增强 的 安全 性 等 均 可 降低 成 本 ， 为 动态 和 优化 的 数据 中 心 提 供 平 
合 。 故 障 转移 集群 的 改进 可 简化 集群 ， 提 高 集群 的 稳定 性 并 使 得 它们 更 加 安全 ， 新 的 故障 转 
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移 集群 验证 向 导 可 用 于 测试 存储 。 此 外 ，Windows Server 2008 还 包括 一 个 新 的 TCP/IP 协议 
栈 ， 称 为 下 一 代 TCP/IP 协议 栈 。 下 一 代 TCP/IP 协议 栈 完 全 重新 设计 了 TCP/IP 功能 ， 兼 容 
了 互联 网 协议 第 4 版 (IPv4 ) 和 互联 网 协议 第 6 版 (IPv6 )， 符 合 不 同 的 网 络 环境 和 技术 的 连 
通 性 和 性 能 需要 。 


4.1.1 Windows Server 2008 R2 概述 


Windows Server 2008 是 专 为 强化 下 一 代 网 络 、 应 用 程序 和 Web 服务 的 功能 而 设计 的 ， 
是 有 史 以 来 最 先进 的 Windows Server 操作 系统 。 与 Windows Server 2008 相 比 ，Windows 
Server 2008 R2 继续 拓展 了 虚拟 化 、 系 统管 理 弹 性 、 网 络 存 取 方 式 ， 以 及 信息 安全 等 领域 的 
应 用 。Windows Server 2008 R2 中 重要 的 新 功能 包含 : Hyper-V 加 入 了 动态 迁移 的 功能 ， 作 为 
最 初 发 布 版 中 快速 迁移 功能 的 一 个 改进 ，Hyper-V 将 以 毫秒 计算 迁移 时 间 ， 与 VMware 公司 
的 ESX 或 其 他 管理 程序 相 比 ， 它 是 Hyper-V 功能 的 一 个 强项 。 此 外 ， 它 还 强化 了 PowerShell 
对 各 个 服务 器 角色 的 管理 指令 。 该 系统 具有 以 下 特色 : 

口 HyperV 2.0 : 使 虚拟 化 的 功能 与 可 用 性 更 完备 。Hyper-V 2.0 不 仅 支 持 Live Migration 

动态 迁移 ， 还 能 支持 更 多 的 Linux 操作 系统 安装 在 VM Eo Windows Server 2008 推 
出 半年 后 ， 微 软 就 推出 了 内 建 在 Windows Server 2008 上 的 虚拟 化 平台 Hyper-V 1.0, 
这 个 版 本 虽然 具有 基本 的 虚拟 化 功能 ， 但 是 相 比 于 其 他 虚拟 化 平台 却 薄弱 许多 ， 如 缺 
乏 动态 迁移 功能 ， 因 此 无 法 在 不 停止 虚拟 主机 VM) 的 情况 下 ,将 VM 转移 到 其 他 
实体 服务 器 上 。 目 前 ， 这 项 功能 在 Windows Server 2008 R2 的 Hyper-V 2.0 上 开始 支 
持 ， 使 得 这 项 虚拟 化 平台 的 可 用 性 迈进 了 一 大 步 。 

O Active Directory Administrative Center : 可 离线 加 入 网 域 、AD 资源 回收 简 (AD 可 强 
化 管理 接口 与 部 署 弹性 )。Active Directory(AD) 在 Windows Server 操作 系统 中 从 来 都 
是 举足轻重 的 服务 器 角色 ，Windows Server 2008 R2 对 此 也 强化 了 不 少 功能 。 例 如 具 
有 新 的 AD 管理 接口 ， 同 时 还 能 使 用 Powershell 指令 操作 ; 可 让 计算 机 离线 加 入 网 
W, HA AD 资源 回收 站 ,增加 了 AD 成 员 的 增删 弹性 。 

口 Windows PowerShell 2.0 与 Server Core : Server Core Bi 式 支持 .NET，R2 改 善 了 
Server Core 不 支持 .NET Framework 且 不 能 使 用 PowerShell 的 缺点 。 现 在 在 指令 操作 
为 主要 要 求 的 Server Core 中 ， 可 以 搭配 PowerShell， 从 而 使 服务 器 管理 的 操作 更 有 
效率 。Server Core 安装 选项 是 安装 Windows Server 2008 操作 系统 的 一 种 新 的 选择 。 
Server Core 安装 提供 了 一 个 最 小 的 运行 环境 作为 特定 的 服务 器 角色 ， 降 低 了 服务 器 的 
维护 管理 强度 ， 同 时 降低 了 服务 器 角色 被 黑客 攻击 的 可 能 性 。 

O Remote Desktop Services : 可 提升 桌面 与 应 用 程序 的 虚拟 化 功能 。 在 新 版 的 RDS 中 ， 

也 增加 了 新 的 Remote Desktop Connection Broker ( RDCB)。 这 项 功能 可 整合 RDS 所 
有 的 应 用 程序 服务 器 ， 包 含 实体 主机 和 VM 。 

D DirectAcess : 可 提供 更 方便 、 更 安全 的 远程 联机 通道 。DirectAccess 让 VPN 通道 的 建 

立 变 得 更 加 简便 ， 可 整合 多 种 验证 机 制 及 NAP， 有 助 于 提高 联机 过 程 中 的 安全 性 。 
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口 BranchCache : 可 加 快 分 公司 之 间 档 案 存 取 的 新 做 法 。 利 用 档案 快 取 的 方式 ， 可 以 就 
近 存 取 先 前 已 经 下 载 过 的 档案 ， 除 了 能 更 快 地 取得 分 享 数 据 之 外 ， 也 能 减少 对 外 联机 
频 宽 的 浪费 。 

口 URL-based QoS : 企业 可 进一步 控 管 网 页 存 取 频 宽 。 企 业 可 以 针对 所 有 个 人 计算 机 连 
接 特 定 网 站 的 联机 定义 优先 权 ， 加 快 重要 网 页 的 存 取 速 度 。 

O BitLocker to Go : 支持 可 移 除 式 存储 装置 加 密 。BitLocker to Go 加 密 随 身 碟 这 一 步骤 
的 特别 之 处 在 于 可 以 整合 智能 卡 验证 使 用 者 身份 的 真实 性 ， 使 得 存储 装置 的 控 管 变 得 
更 加 安全 。 

口 AppLocke : 可 提高 个 人 端 应 用 程序 的 控 管 度 。AppLockers 可 称 为 软件 限制 原则 的 加 
强 版 本 ， 除 了 具备 一 et 最 为 重要 的 是 企业 可 以 通过 不 可 随意 修改 的 发 行者 
信息 ， 有 效 地 禁止 或 允许 应 用 程序 的 执行 ， 同 时 也 更 加 完善 了 其 自身 的 安全 性 能 。 


4.1.2 Windows PowerShell 


Windows PowerShell 是 微软 公司 为 Windows 93 ErJT Az MISERE? (Shell) 及 脚本 语言 
技术 ， 采 用 的 是 命令 行 界面 。 这 项 全 新 的 技术 提供 了 丰富 的 控制 选项 与 自动 化 的 系统 管理 
能 力 。Microsoft 推出 Windows PowerShell 的 目的 是 : 使 Windows PowerShell 成 为 相当 于 
UNIX/Linux 系统 的 命令 行 沉 程序 (如 sh, bash 或 csh)， 同 时 还 可 内 置 脚本 语言 及 辅助 脚本 
程序 的 工具 。 

Windows PowerShell 以 .NET Framework 技术 为 基础 ， 并 且 与 现 有 的 WSH 保持 向 后 兼 
容 ， 因 此 它 的 脚本 程序 不 仅 能 访问 .NET CLR， 也 能 使 用 现 有 的 COM 技术 。 同 时 还 包含 了 
数 种 系统 管理 工具 ， 简 易 且 一 致 的 语法 ， 可 提升 管理 者 的 处 理 能 力 ， 常 见 的 如 登录 数据 库 、 
WMI 等 。Windows PowerShell 具有 以 下 优势 : 

口 一 致 性 的 设计 让 所 有 的 工具 和 系统 数据 的 使 用 语法 、 命 名 原则 都 相同 。 

口 脚本 语言 简单 易学 ， 而 且 还 能 支持 现 有 的 脚本 程序 和 命令 行 工 具 。 

口 内 含 129 种 被 称 为 cmdlet 的 标准 工具 ， 可 用 来 处 理 常见 的 系统 管理 工作 。 

口 具备 完整 的 可 扩展 性 ， 独 立 软 件 商 或 开发 者 都 能 很 容易 地 根据 需求 自行 扩充 。 

口 进程 间 数 据 传递 的 内 容 具 有 强 类 型 特征 。 

以 下 示例 演示 了 Windows PowerShell 的 基本 使 用 方法 。 

获取 所 有 命令 : 


PS> Get -Command 
查看 Get-Command 命令 的 用 法 : 


PS» Get-Help Get-Command 
停止 目前 正在 运行 的 以 p' 字 符 开头 来 命名 的 所 有 程序 : 


PS» get-process p* | stop-process 
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停止 目前 正在 运行 的 使 用 大 于 1000MB 存储 器 的 所 有 程序 : 

PS» get-process | where ( $ .WS -gt 1000MB ) | stop-process 
计算 某 个 目录 下 文件 内 的 字 节 大 小 : 

PS» get-childitem | measure-object -property length -sum 
等 待 一 个 名 为 “notepad” 的 程序 运行 退出 : 


PS» $processToWatch = get-process notepad 
PS» $processToWatch.WaitForExit() 


将 "helloworld!" 字符 串 转 为 英文 大 写字 符 ， 使 其 变 成 "HELLO,WORLDI": 

PS» "hello, world!".ToUpper() 

在 字符 串 "string" 的 第 1 个 字符 后 插入 字符 串 "ABC"， 使 其 变 成 "SABCtring": 
PS» "string".Insert(1, "ABC") 

订阅 一 个 指定 的 RSS Feed 并 显示 它 最 近 的 8 个 主题 : 

PS» $rssUrl = "http://blogs.msdn.com/powershell/rss.aspx" 

PS> $blog = [xml] (new-object System.Net.WebClient).DownloadString($rssUrl) 
PS> $blog.rss.channel.item | select title -first 8 


将 " SUserProfile" 设置 成 数值 "UserProfile" 的 环境 变量 : 


PS» $UserProfile = $env:UserProfile 





提 更 多 的 Windows PowerShell 资料 可 查阅 如 下 网 址 : 


Zz 


http://www.pstips.net/powershell-online-tutorials 
http://msdn.microsoft.com/en-us/library/dd835506(VS.85).aspx 





4.0 Linux 基础 


Linux 最 初 是 作为 支持 英特尔 x86 架构 的 个 人 计算 机 的 一 个 自由 操作 系统 ， 目 前 Linux 
已 经 被 移植 到 更 多 的 计算 机 硬件 平台 上 ， 远 远 超出 其 他 的 任何 操作 系统 。Linux 发 行 版 一 直 
被 用 来 作为 服务 器 的 主流 操作 系统 ， 并 且 已 经 在 该 领域 中 占据 了 重要 的 地 位 ， 世 界 上 500 个 
最 快 的 超级 计算 机 9096 以 上 运行 的 均 是 Linux 发 行 版 或 其 变种 ， 包 括 最 快 的 前 10 名 超级 计 
算 机 运行 的 都 是 基于 Linux 内 核 的 操作 系统 。 曾 经 是 世界 上 最 强大 的 超级 计算 机 一 一 IBM 的 
红 杉 (IBM Sequoia)， 已 于 2011 年 交付 劳伦斯 利 福 摩尔 国家 实验 室 ， 并 于 2012 年 6 月 开始 
运作 ， 也 是 选择 Linux 作为 操作 系统 。Linux 也 广泛 应 用 于 租 入 式 系 统 上 上， 如 手机 、 平 板 电 
脑 、 路 由 器 、 电 视 和 电子 游戏 机 等 。 广 泛 使 用 于 移动 设备 上 的 Android 操作 系统 就 是 创建 于 
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Linux 内 核 之 上 的 。4.2.1 节 将 以 常用 的 Linux 版 本 Centos 为 例 ， 来 讲解 Linux 命令 。 


4.2.4 Linux 命令 

1. Linux 命令 基础 

Linux 命令 是 对 Linux 系统 进行 管理 的 命令 。 对 于 Linux UL, EEP Jeu 328 
内 存 、 磁 盘 驱 动 器 、 键 盘 、 鼠 标 ， 还 是 用 户 等 都 是 文件 ，Linux 系统 管理 的 命令 是 它 正常 运 
行 的 核心 ， 与 之 前 的 DOS 命令 类 似 。Linux 命令 在 系统 中 有 两 种 类 型 : 内 置 Shell 命令 和 
Linux 命令 。 本 节 讲 解 Linux 命令 ，Shell 命令 将 在 422 节 讲 解 。 

Linux 命令 通常 具有 以 下 格式 : 

命令 名 [命令 选项 ] [ 命令 参数 ] 


先 来 看 一 个 最 简单 的 命令 “ su”， 该 命令 用 于 用 户 的 身份 转换 。su 命令 可 以 转换 用 户 身 
份 ，su 用 户 名 表示 转 到 某 用 户 ， 若 su 命令 不 带 参数 则 表示 直接 转 到 超级 用 户 root。 命 令 提 示 
符 “$” 表 示 普 通用 户 状 态 ,“# ”表示 超级 用 户 状态 。 下 面 的 操作 将 演示 身份 转换 : 


2. 常用 Linux 命令 
以 下 是 系统 信息 与 系统 管理 中 常用 的 Linux 命令 的 示例 : 


# arch 显示 机 器 的 处 理 器 架构 

# cal 2007 显示 2007 年 的 日 历 表 

# cat /proc/cpuinfo 显示 CPU info 的 信息 

# cat /proc/interrupts 显示 中 断 

# cat /proc/meminfo 校 验 内 存 使 用 

# cat /proc/swaps 显示 哪些 swap 被 使 用 

4 cat /proc/version 显示 内 核 的 版 本 

# cat /proc/net/dev 显示 网 络 适配器 及 统计 

# cat /proc/mounts 显示 已 加 载 的 文件 系统 

# clock -w 将 对 时 间 的 修改 保存 到 BIOS 
# date 显示 系统 日 期 

# lsusb -tv 显示 USB 设备 

& uname -m 显示 机 器 的 处 理 器 架构 

# uname -r 显示 正在 使 用 的 内 核 版 本 

4 logout 注销 

# reboot 重启 

# shutdown -h now 关闭 系统 

# shutdown -h 22:50 & 按 预 定时 间 22:50 关闭 系统 
# shutdown -c 取消 按 预定 时 间 关 闭 系统 

# shutdown -r now 重启 


以 下 是 文件 和 目录 管理 中 常用 的 Linux mA: 
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# cd /home ; 进入 \home 目录 

# cp filel file2 复制 一 个 文件 

# 1s 查看 目录 中 的 文件 

# mkdir dir 创建 dir 目录 

4 mv mydir new mydir 重 命名 / 移动 一 个 目录 

# pwa 显示 工作 路 径 

# rm -f file 删除 file 文件 

# find / -name myfile 从 L 开始 进 入 根 文件 系统 搜索 my file 文件 
# mount -o loop myfile.iso /mnt/cdrom  ” 挂 载 一 个 文件 或 ISO 镜像 文件 
# df -h 显示 已 经 挂 载 的 分 区 列表 

# cat filel 从 第 一 个 字 节 开始 正 向 查看 文件 的 内 容 
以 下 是 用 户 与 用 户 组 管理 中 常用 的 Linux 命令 : 

# groupadd [group] 创建 一 个 新 用 户 组 

# groupdel [group] 删除 一 个 用 户 组 

# passwd 修改 口令 

# passwd myuser 修改 用 户 的 口令 

# useradd myuser 创建 一 个 新 用 户 

* userdel myuser 删除 一 个 用 户 

# chgrp mygroup myfile 改变 文件 的 群 组 

3. 主要 命令 解析 及 技巧 

(1) Is 命令 

Is 命令 将 指定 目录 的 文件 及 目录 输出 在 屏幕 中 。 示 例如 下 : 

S Ls 


hadoop-2.4.1  hadoop-2.4.1-src.tar.gz  hadoop-2.4.1.tar.gz numpy pypy-2.3.1-src 


此 外 ， 通 过 加 上 “-la” 参 数 可 表示 : 以 长 格式 的 形式 查看 当前 目录 下 的 所 有 文件 ， 包 括 
隐藏 文件 。 文 件 各 字段 的 含义 如 下 : 

口 文件 属性 : drwxr-xr-x 

O 文件 硬 链接 数 或 目录 子 目 录 数 : 3 (一 个 空 目 录 的 该 字段 是 2， 表示 该 目录 下 有 两 个 子 
目录 ， 因 为 每 一 个 目录 都 有 一 个 指向 它 本 身 的 子 目录 "." 和 指向 它 上 级 目录 的 子 目录 
WD 

CO 所 有 者 : user 

口 所 属 用 户 组 : group 

口 文件 大 小 : 102 byte 

口 修改 时 间 : Marll 22:56 

口 文件 名 : Filename 

下 例 演 示 了 该 参数 的 用 法 : 


$ Is -la ~ 

总 用 量 150484 

drwx------ . 6 myhaspl myhaspl 4096 9 月 10 16:55. 

drwxr-xr-x. 3 root root 209H 10 08:23 .. 

-rw------- . 1 myhaspl myhaspl 220 9 H 10 17:59 .bash history 
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drwxr-xr-x. 9 myhaspl myhaspl 4096 6 H 21 14:38 hadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6 H 21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 H 21 14:42 hadoop-2.4.1.tar.gz 
drwxr-xr-x 8 myhaspl myhaspl 4096 9 H 10 17:02 numpy 

drwxr----- 3 myhaspl myhaspl 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 9 H 10 16:25 pypy-2.3.1-src 


(2) ed 命令 及 多 条 命令 同行 
cd 命令 的 功能 是 切换 当前 目录 ， 示 例如 下 : 


Sed sx 
$cd /home/ 
$cd /opt 


此 外 ， 还 可 以 将 多 个 命令 写 在 同一 行 ， 一 次 使 用 ， 用 分 号 隔 开 ， 比 如 : 


$ ls -la ;cd numpy;ls 
总 用 量 150484 


drwx------ 6 myhaspl myhaspl 4096 9 月 10 16:55 

drwxr-xr-x 3 root root 20 9 月 10 08:23 .. 

-rw------- 1 myhaspl myhaspl 220 9 H 10 17:59 .bash history 

drwxr-xr-x. 9 myhaspl myhaspl 4096 6 H 21 14:38 hadoop-2.4.1 

-rw-r--r--. 1 myhaspl myhaspl 15417097 6 H 21 14:42 hadoop-2.4.1-src.tar.gz 

-rw-r--r--. 1 myhaspl myhaspl 138656756 6 H 21 14:42 hadoop-2.4.1.tar.gz 

drwxr-xr-x. 8 myhaspl myhaspl 4096 9 H 10 17:02 numpy 

drwxr----- 3 myhaspl myhaspl 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 9 月 10 16:25 pypy-2.3.1-src 

BENTO BUILD.txt build INSTALL.txt  pavement.py  setupegg.py 
THANKS.txt 

bento.info COMPATIBILITY LICENSE.txt  README.txt setup.py tools 

branding DEV README.txt  MANIFEST.in release.sh site.cfg.example  tox.ini 

bscript doc numpy runtests.py TEST COMMIT 

$ 


如 上 面 的 结果 所 示 ， 首 先 ， 先 执行 第 1 条 1s 命令， 输出 当前 目录 下 的 文件 列表 ， 然 后 ， 
执行 第 2 条 cd 命令 ， 进 入 numpy 目录 后 ,执行 第 3 2& Is 命令， 输出 numpy 目录 下 的 内 容 。 

(3 ) 命令 后 台 执 行 

可 以 让 进程 在 后 侣 运行， 执行 命令 后 立即 返回 ， 这 样 还 可 以 继续 执行 其 他 命令 ， 只 要 在 
命令 行 的 最 后 加 上 “ &” 即 可 。 下 面 的 示例 是 查找 含有 字符 串 “ doc” 的 文件 ， 因 查找 过 程 
比较 漫长 ， 故 而 直接 在 后 台 执 行 并 返回 ， 如 下 所 示 : 


$ find ~ -name doc & 

[1] 5453 

$ /home/myhaspl/hadoop-2.4.1/share/doc 
/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc 
/home/myhaspl/pypy-2.3.1-src/ctypes configure/doc 
/home/myhaspl/pvpy-2.3.1-src/pypy/doc 
/home/myhaspl /numpy /doc 
/home/myhaspl/numpy/build/lib.linux-x86 64-2.7/numpy/doc 
/home/myhaspl /numpy /numpy /doc 
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/home/myhaspl /numpy /numpy /numpy /doc 
/home/myhaspl /numpy /numpy /numpy / £2py / doc 


(4) 重 定向 与 管道 
重 定向 是 指 对 原来 系统 命令 的 默认 执行 方式 进行 改变 ， 比 如 将 原本 在 显示 器 中 的 输出 改 
为 输出 到 某 一 文件 中 。 常 用 的 重 定向 命令 如 下 所 示 (cmd 表示 命令 ，file 表示 文件 或 设备 ): 


cmd > file 把 stdout 重 定向 到 file 文件 中 。 

cmd >> file 把 stdout 重 定向 到 file 文件 中 (追加 )。 

cmd 1> file 把 stdout 重 定向 到 file 文件 中 。 

cmd > file 2>&1 ”把 stdout 和 stderr 一 起 重 定向 到 file 文件 中 。 
cmd 2> file 把 stderr 重 定向 到 file 文 件 中 。 

cmd 2>> file 把 stderr 重 定向 到 file 文件 中 (追加 )。 


下 面 以 实例 来 讲解 主要 的 重 定 向 操作 。 首 先 来 讲解 重 定向 操作 符 “>”， 下 面 的 例子 演示 
了 先 使 用 find 命令 来 查找 含有 “ doc” 的 文件 ， 然 后 使 用 “ >” 将 结果 列表 重 定向 到 一 个 文 
件 中 : 


$ find ~ -name doc »mydoclist & 

[1] 5461 

$ ls 

hadoop-2.4.1 hadoop-2.4.1.tar.gz  numpy 
hadoop-2.4.1-src.tar.gz  mydoclist pypy-2.3.1-src 
[1]+ ”完成 find ~ -name doc > mydoclist 


$ cat mydoclist 

/home/myhaspl/hadoop-2.4.1/share/doc 
/home/myhaspl/pypy-2.3.1-src/site-packages/numpy /doc 
/home/myhaspl/pypy-2.3.1-src/ctypes configure/doc 
/home/myhaspl/pypy-2.3.1-src/pypy/doc 

/home /myhaspl /numpy /doc 
/home/myhaspl/numpy/build/lib.linux-x86 64-2.7/numpy/doc 
/home /myhaspl /numpy /numpy /doc 
/home/myhaspl /numpy /numpy /numpy /doc 

/home /myhaspl /numpy /numpy / numpy / £f 2py / doc 
/home/myhaspl/numpy/numpy/build/lib.linux-x86 64-2.7/numpy/doc 
$ 


接 下 来 讲解 重 定向 操作 符 “>>”， 下 面 的 例子 先 使 用 find 命令 查找 文件 ， 然 后 使 用 
“>>” 将 查找 结果 重 定向 到 文件 mydoclist 中 : 


$ find ~ -name hadoop »»mydoclist & 

[1] 5466 

$ cat mydoclist 

/home/myhaspl/hadoop-2.4.1/share/doc 
/home/myhaspl/pypy-2.3.1-src/site-packages/numpy /doc 
/home/myhaspl/pypy-2.3.1-src/ctypes configure/doc 
/home/myhaspl/pypy-2.3.1-src/pypy/doc 
/home/myhaspl /numpy /doc 
/home/myhaspl/numpy/build/lib.linux-x86 64-2.7/numpy/doc 
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/home/myhaspl/numpy /numpy/doc 

/home/myhaspl/numpy/numpy /numpy /doc 

/home/myhaspl/numpy/numpy / numpy / £2py / doc 

/home/myhaspl /numpy /numpy /build/lib.linux-x86, 64-2.7/mumpy/doc 

/home/myhaspl/hadoop-2.4.1/bin/hadoop 

/home/myhaspl/hadoop-2.4.1/etc/hadoop 

/home/myhaspl/hadoop-2.4.1/share/hadoop 

/home/myhaspl/hadoop-2.4.1/share/hadoop/httpfs/tomcat /webapps/webhdfs/WEB-INF/ 
classes/org/apache/hadoop 

/home/myhaspl/hadoop-2.4.1/share/hadoop/httpfs/tomcat /webapps /webhdf s/WEB-INF/ 
classes/org/apache/hadoop/lib/service/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/api/src-html/org/apache/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/api/org/apache/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/api/org/apache/hadoop/lib/service/ 
hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs-httpfs/apidocs/src- 
html/org/apache/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs-httpfs/apidocs/src- 
html/org/apache/hadoop/lib/service/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs-httpfs/apidocs/org/ 
apache/hadoop 

/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs-httpfs/apidocs/org/ 
apache/hadoop/lib/service/hadoop 


再 接 下 来 ， 看 一 个 IO 重 定向 的 例子 。 在 Linux 系统 中 ， 标 准 输入 ( stdin) 的 文件 描述 
符 为 0， 标 准 输出 (stdout) 的 文件 描述 符 为 1， 标 准 错误 输出 〈stderr) 的 文件 描述 符 为 2。 
标准 输出 重 定向 命令 格式 如 下 所 示 : 


1>filename 或 1>>filenarme 


下 例 演示 了 VO 重 定向 的 使 用 方法 ， 将 标准 输出 重 定向 到 文件 abe 中 : 


$ echo "aaa" 1> abc 
$ cat abc 

aaa 

$ echo "aaa" 1»» abc 
$ cat abc 

aaa 


标准 错误 输出 重 定向 命令 格式 如 下 所 示 : 


2>filename 或 2>>filename 


下 例 演示 了 如 何 将 标准 错误 输出 重 定向 到 文件 error.log 中 : 


$ rm /root/* 2»error.log 

$ cat error.log 

rm: 无 法 删除 "/root/*": 权限 不 够 
$ 
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此 外 ， 还 可 以 使 用 “i>&j” 将 文件 描述 符 i 表示 的 输出 文件 重 定向 到 文件 描述 符 j 表示 
的 文件 中 。 

最 后 ， 讲 解 tee 命令 与 管道 操作 符 “ |” 的 合并 使 用 ， 实 现在 输出 的 同时 ， 青 输出 一 份 同 
样 的 内 容 给 管道 。 下 例 演示 了 如 何 列 出 目录 的 内 容 并 输出 给 mylist 文件 : 


$ ls |tee mylist 
hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
mydoclist 

numpy 

pypy-2.3.1-src 

$ cat mylist 
hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
mydoclist 

numpy 

pypy-2.3.1-s5tc 

$ 


QE 管道 是 Linux 中 很 重要 的 一 种 通信 方式 ， 是 将 一 个 程序 的 输出 直接 连接 到 另 一 个 程序 
的 输入 。 


(5 ) 通配符 

在 文件 管理 等 操作 中 ， 可 以 使 用 通配符 ， 最 常用 的 通配符 如 下 : 

口 *: 多 个 字符 

口 ?: 单个 字符 

此 外 ， 还 可 以 使 用 “~ ”来 表示 当前 用 户 的 主 目录 。 

下 例 演示 了 如 何 使 用 ls 命令 加 通配符 的 模式 列 出 指定 目录 “~ /numpy/” 的 内 容 : 


$ ls -/numpy/*.py 

/home/myhaspl/numpy/pavement.py  /home/myhaspl/numpy/setupegg.py 
/home/myhaspl/numpy/runtests.py  /home/myhaspl/numpy/setup.py 

$ ls -/numpy/*.txt 

/home/myhaspl/numpy/BENTO BUILD.txt  /home/myhaspl/numpy/LICENSE.txt 
/home/myhaspl/numpy/DEV README.txt /home/myhaspl/numpy/README.txt 
/home/myhaspl/numpy/INSTALL.txt /home/myhaspl/numpy /THANKS .txt 
$ ls -/numpy/setup*.py 

/home/myhaspl/numpy/setupegg.py  /home/myhaspl/numpy/setup.py 

$ ls -/numpy/setup.?? 

/home/myhaspl/numpy/setup.py 

$ 


(6) 作业 管理 
可 以 使 用 jobs 命令 显示 当前 作业 ，grep 命令 是 一 种 强大 的 文本 搜索 工具 ， 它 能 使 用 正则 
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表达 式 搜索 文本 。 下 例 将 这 二 者 结合 起 来 ， 输 出 文件 列表 中 包括 字符 串 "se" 的 文件 名 ， 并 将 


输出 结果 放 到 myse 文件 中 : 
$ find ~ -name "*.py"lgrep se »myse & 
[1] 2258 
$ jobs 
[1]+ 运行 中 find ~ -name "*.py" | grep se > myse & 
$ jobs 
[11+ 完成 find ~ -name "*.py" | grep se > myse 


$ cat myse 
/home/myhaspl/pypy-2.3.1-src/dotviewer/graphparse.py 
/home/myhaspl/pypy-2.3.1-src/dotviewer/graphserver.py 


下 例 演示 了 使 用 Kill 命令 来 停止 作业 ， 其 中 sleep 表示 该 作业 休眠 ， 后 面 的 时 间 参 数 可 


以 是 s ( 秒 )、h (小 时 )、m (分 钟 ) 或 d CHO: 


$ (find ~ -name "*.?y"|grep se »myse;sleep 10s )& 

[1] 2365 

$ jobs 

[1]+ 和 运行 中 ( find ~ -name "*.?y" | grep --color-auto se > myse; sleep 10s ) & 
$ kill $1 

$ jobs 

[(1]4 BAE ( find - -name "*.?y" | grep --color-auto se » myse; sleep 10s ) 
$ 


C1) 查询 命令 使 用 方式 
可 以 使 用 man 命令 行 的 方式 来 查询 命令 帮助 ， 下 面 演示 了 查询 ls 命令 的 帮助 信息 : 


man 1s 


目录 : 

口 ~ 表示 当前 用 户 的 主 目录 。 

口 . 表示 当前 目录 。 

D.. 表示 上 级 目录 。 

(8 ) 链接 文件 

在 Linux 中 ， 可 用 不 同 的 文件 名 引用 同一 个 数据 或 程序 ， 称 为 硬 链接 ， 可 在 同一 物理 文 


件 系统 中 ， 创 建 硬 链接 。 下 例 演 示 了 硬 链接 的 使 用 方法 : 








$ 1s -la 

总 用 量 151228 

drwx------ 6 myhaspl myhaspl 4096 9 月 18 08:55 

drwxr-xr-x. 3 root root 209H 10 08:23 .. 

= 六 == 一 = 二 二 二 1 myhaspl myhaspl 1915 9 H 16 18:05 .bash history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6 月 21 14:38 hadoop-2.4.1 
= 1 myhaspl myhaspl 15417097 6 月 21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 月 21 14:42 hadoop-2.4.1.tar.gz 
-EwW-£--f--. 1 myhaspl myhaspl 1454 9 月 16 10:53 mydoclist 
-rw-rw-r--. 1 myhaspl myhaspl 88 9 H 16 17:25 mylist 

-rw-rw-r--. 1 myhaspl myhaspl 357304 9 H 18 08:55 mypylist 
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-rw-rw-r--. 1 myhaspl myhaspl 31954 9 H 16 18:02 myse 
drwxr-xr-x. 8 myhaspl myhaspl 4096 9 H 16 10:39 numpy 
drwxr----- . 3 myhaspl myhaspl 18 9H 10 16:21 .pki 
drwxrwxr-x. 14 root root 4096 9H 10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 357304 9 H 16 17:57 se 

$ ln mypylist mypylistl 

$ 1s -1la 

总 用 量 151580 

drwx------ 6 myhaspl myhaspl 4096 9H 18 08:56 

drwxr-xr-x 3 root root 209H 10 08:23 .. 

-rw------- . 1 myhaspl myhaspl 1915 9 月 16 18:05 .bash history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6 月 21 14:38 hadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6 H 21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 H 21 14:42 hadoop-2.4.1.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 1454 9 H 16 10:53 mydoclist 
-rw-rw-r--. 1 myhaspl myhaspl 88 9H 16 17:25 mylist 
-rw-rw-r--. 2 myhaspl myhaspl 357304 9 H 18 08:55 mypylist 
-rw-rw-r-- 2 myhaspl myhaspl 357304 9 月 18 08:55 mypylistl 
-rw-rw-r-- 1 myhaspl myhaspl 31954 9 H 16 18:02 myse 
drwxr-xr-x 8 myhaspl myhaspl 4096 9 月 16 10:39 numpy 
drwxr----- 3 myhaspl myhaspl 18 9 月 10 16:21 .pki 
drwxrwxr-x. 14 root root 4096 9 H 10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 357304 9 H 16 17:57 se 

$ ln mypylist mypylist2 

$ ls -la 

总 用 量 151932 

drwx------ 6 myhaspl myhaspl 4096 9 月 18 09:27 

drwxr-xr-x 3 root root 209H 10 08:23 .. 

-ÍfW------- 1 myhaspl myhaspl 1915 9 H 16 18:05 .bash history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6 月 21 14:38 hadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 H 21 14:42 hadoop-2.4.1.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 1454 9 H 16 10:53 mydoclist 
-rw-rw-r--. 1 myhaspl myhaspl 88 9 月 16 17:25 mylist 
-rw-rw-r--. 3 myhaspl myhaspl 357304 9 月 18 08:55 mypylist 
-rw-rw-r--. 3 myhaspl myhaspl 357304 9 H 18 08:55 mypylisti 
-rw-rw-r--. 3 myhaspl myhaspl 357304 9 H 18 08:55 mypylist2 
-rw-rw-r--. 1 myhaspl myhaspl 31954 9 H 16 18:02 myse 
drwxr-xr-x. 8 myhaspl myhaspl 4096 9 H 16 10:39 numpy 
drwxr----- 3 myhaspl myhaspl 18 9H 10 16:21 .pki 
drwxrwxr-x. 14 root root 4096 9 H 10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 357304 9 月 16 17:57 se 








从 几 条 命令 的 执行 结果 可 以 看 到 : mypylist 的 硬 链接 数量 在 增加 。 

在 Linux 下 也 可 以 创建 软 链接 ， 这 种 链接 跨越 了 不 同 的 物理 文件 系统 ， 也 称 为 符号 链接 
文件 ， 与 硬 链接 不 同 的 是 ， 它 是 一 个 单独 的 文件 ， 存 放 着 目标 文件 的 路 径 名 。 下 例 演示 了 软 
链接 的 使 用 方式 : 


$ In -s mypylist mypylists 


$ ls -la 
总 用 量 151932 
drwx------ . 6 myhaspl myhaspl 4096 9H 18 09:35 . 
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drwxr-xr-x. 3 root root 20 9H 10 08:23 .. 

-YW----—-- . 1 myhaspl myhaspl 1915 9 月 16 18:05 .bash history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6 月 21 14:38 hadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6 月 21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 H 21 14:42 hadoop-2.4.1.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 1454 9 月 16 10:53 mydoclist 

-rw-rw-r--. 1 myhaspl myhaspl 88 9 H 16 17:25 mylist 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9 月 18 08:55 mypylist 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9 月 18 08:55 mypylisti 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9 H 18 08:55 mypylist2 

lrwxrwxrwx. 1 myhaspl myhaspl 8 9 月 18 09:35 mypylists -> mypylist 
(9) 文件 权限 


对 于 一 般 的 Linux 文件 而 言 ， 权 限 如 下 所 示 : 
口 r: 允许 读 文件 内 容 。 

Ow: 允许 修改 文件 内 容 。 

口 x: 允许 执行 该 文件 。 

对 于 Linux 目录 而 言 ， 权 限 如 下 所 示 : 

Or: 允许 列 出 该 目录 下 的 文件 和 子 目 录 。 

口 w: 允许 生成 和 删除 该 目录 下 的 文件 。 

口 x: 允许 访问 该 目录 。 

Qu: 代表 所 有 者 (user)。 

Og: 代表 所 有 者 所 在 的 组 群 (group)。 

Oo: 代表 其 他 人 ,但 不 是 u 和 g (other)。 
Oa: 代表 全 部 的 人 ， 也 就 是 包括 u、g 和 o。 
此 外 ， 还 可 以 通过 chmod 命令 来 改变 权限 。 该 命令 的 格式 如 下 所 示 : 


chmod [ 用户 类 型 ] (+/-) 访问 权限 的 格式 文件 或 目录 名 
下 例 演 示 了 如 何 改 变 权限 ,将 mytext 设置 为 所 有 的 人 可 写 为 : 


chmod a+w mytext 


下 例 演示 了 文件 myrun 的 生成 、 权 限 的 授予 及 最 后 执行 的 过 程 : 


$ echo "ls;echo \"ok\"” Smyrun 
$ cat myrun 

ls;echo "ok" 

$ chmod «x ./myrun 

$ ./myrun 


abc hadoop-2.4.1 mydoclist  mypylistl  myrun  pypy-2.3.1-src 
abd hadoop-2.4.1-src.tar.gz  mylist mypylist2  myse se 
error.log M hadoop-2.4.1.tar.gz mypylist mypylists  numpy 

ok 


(10) 进程 管理 
可 通过 ps 命令 显示 当前 进程 ， 通 过 kill 命令 杀 死 进程 ，kill 命令 终止 进程 的 调用 格式 如 


wwaibbt.com DODDODODOD 


下 (pid 为 进程 号 ): 
kill -9 pid 


下 例 演示 了 显示 进程 及 杀 死 进程 的 过 程 : 


首先 ， 执 行 ls 命令 后 


zs 
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开始 休眠 ， 整 个 过 程 处 于 


一 个 进程 内 ， 然 后 在 该 进程 休眠 后 ， 通 过 ps 命令 查找 该 进程 的 PID 号 ， 最 后 用 kill 命令 终止 
该 进程 。 
$ ls;sleep 20& 
$ ps -a 
PID TTY TIME CMD 
2245 pts/0 00:00:00 sleep 
2246 pts/0 00:00:00 ps 
$ ps -ef 
UID PID PPID C STIME TTY TIME CMD 
root s) 0 — d L6s07 ? 00:00:01 /usr/lib/systemd/systemd 
--switched-root - 
root 2 Q QD 16:07 ? 00:00:00 [kthreadd] 
root 3 2 9 16:07 ? 00:00:00 [ksoftirqd/0] 
root 5 2 0 16:07 ? 00:00:00 [kworker/0:0H] 
root 6 2 0 15:07 ? 00:00:00 [kworker/u2:0] 
myhaspl 2245 2176 0 17204 pts/0 00:00:00 sleep 20 
myhaspl 2247 2176 40 17:04 pts/0 00:00:00 ps -ef 
$ kill -9 2287 
myhaspl 2289 2261 0 17:11 pts/1i 00:00:00 ps -ef 
[1]+ 已 杀 死 sleep 20 
$ 
(11) 用 户 管理 
下 例 演示 了 通过 useradd 命令 userdel 命令 进行 增加 或 删除 用 户 的 操作 : 
# useradd -m testi 
# ls /home/ 
myhaspl testi 
# su testl 
$ su 
# userdel testl 
(12) 磁盘 空间 管理 
下 例 演示 了 通过 df 命令 来 查看 空间 的 使 用 情况 : 
# df 
文件 系统 1K- X 已 用 可 用 已 用 名 ERAI 
/dev/mapper/centos-root 7022592 2545964 4476628 37% / 
devtmpfs 632192 0 632192 0$  /dev 
tmpfs 638148 0 638148 0$ /dev/shm 
tmpfs 638148 8320 629828 2$ /run 
tmpfs 638148 0 638148 0$  /sys/fs/cgroup 
/dev/sdal 508588 126640 381948 25% /boot 
# 
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下 例 演示 了 通过 du 命令 来 查看 某 个 目录 或 文件 的 占用 空间 : 


$ du -h myrun 

4.0K myrun 

$ du -h numpy 

4.0K numpy/.git/refs/heads 

0 numpy/.git/refs/tags 

4.0K numpy/.git/refs/remotes/origin 
4.0K numpy/.git/refs/remotes 
8.0K numpy/.git/refs 

0 numpy/.git/branches 

44K numpy/.git/hooks 

4.0K numpy/.git/info 

28M numpy/.git/objects/pack 


4.2.2 Shell 基础 


Shell 是 Linux 系统 的 用 户 界 面 ， 为 用 户 与 内 核 进 行 交 互 操作 提供 的 一 种 接口 。 它 接收 用 
户 输入 的 命令 并 把 它 送 入 内 核 执行 。 实 际 上 Shell 是 一 个 命令 解释 器 ， 它 解释 用 户 输入 的 命 
令 并 且 把 它们 送 到 内 核 中 。 不 仅 如 此 ，Shell 还 有 自己 的 编程 语言 ， 用 于 对 命令 进行 编辑 ， 它 
允许 用 户 编写 由 Shell 命令 组 成 的 程序 。Shell 编程 语言 具有 普通 编程 语言 的 很 多 特点 ， 比 如 
它 也 有 循环 结构 和 分 支 控制 结构 等 ， 用 这 种 编程 语言 编写 的 Shell 程序 与 其 他 应 用 程序 具有 
同样 的 效果 。 

1. 建立 和 运行 Shell 文件 

什么 是 Shell 程序 呢 ? 简单 地 说 Shell 程序 就 是 一 个 包含 若干 行 Shell 或 Linux 命令 的 文 
件 。 下 面 以 实例 来 说 明 如 何 建立 并 运行 Shell 文件 。 

首先 编辑 如 下 Shell 文件 test1.sh， 并 将 扩展 名 命名 为 "sh": 

#!/bin/sh 

ls -1a 


cd numpy 
ls 


然后 ， 对 Shell 文件 进行 权限 授权 ， 如 下 所 示 : 
$ chmod a«rx testl.sh 

最 后 运行 该 Shell 文件 ， 如 下 所 示 : 

$ ./testl.sh 

2. Shell 的 命令 行 参数 


1) 读 取 某 个 命令 行 参数 。 可 使 用 $0 到 $n 表示 对 第 0 到 第 n 个 参数 进行 操作 。 下 面 演 
示 了 依次 输出 程序 的 命令 行 参数 : 


$ cat testl.sh 
d$!/bin/sh 
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echo "$0 

echo "$1 

echo "$2 

$ ./testl.sha bc 

./testl.sh 

a 

b 

2) 弹出 所 有 命令 行 参数 。shift 从 命令 行 参数 中 弹出 第 1 个 参数 ，until 开始 循环 ， 如 下 
BUR: 

$ cat testl.sh 

#!/bin/sh 

until [| -z "51" ] 

do 

echo "$1 " 
shift 

done 

$ ./testl.sh ab c d e f£ 

a 

b 

e 

d 

e 

f 


3) 使 用 S* 和 $@ 表示 所 有 参数 。 下 例 演示 了 通过 for 循环 依次 读 取 命令 行 参数 列表 中 
的 元 素 并 输出 : 


$ cat testl.sh 

4!/bin/sh 

index-1 

for myarg in $* 

do 
echo "NOdSindex-$myarg" 
let "index«-1" 

done 

$ ./testi.shabcdeft 

NO#1=a 

NO#2=b 

NO#3=C 

NO£4-d 

NO#5=e 

NO#6=f 


3. Shell 变量 

1) 读 写 变量 。 可 以 通过 在 变量 名 的 前 面 加 “$” 取 变量 的 值 或 以 “${ 变量 名 }” 的 方 
式 对 变量 进行 操作 。 

下 面 例子 首先 定义 了 a b 两 个 变量 ， 然 后 将 a 变量 的 值 赋值 给 b 变量 ， 最 后 输出 b 变量 : 


$ cat testl.sh 
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#!/bin/sh 
a-12 

b-$a 

echo $b 

$ ./testl.sh 
12 

$ 


2) 变量 的 间接 引用 。 下 例 演 示 了 通过 “${! 变量 名 } ”的 方式 对 变量 进行 间接 引用 ， 读 
取 变 量 值 : 


$ cat testl.sh 
#!/bin/sh 

az12 

b-a 

echo $(!b) 

$ ./testl.sh 
12 

$ 


4. 条 件 表达 式 
1) 下 面 的 例子 演示 了 如 何 通 过 “ if:…then..else..fi” 的 方式 来 完成 条 件 选 择 ， 如 果 ab, 
则 输出 GT， 否 则 输出 LT: 


$ cat testl.sh 
#!/bin/sh 
a=1 
b-2 
if [ $a -gt $b ] 
then 

echo "GT" 
else 

echo "LT" 
fi 
$ ./testl.sh 
LT 
$ 


2) 下 面 的 例子 演示 了 如 何 通 过 “if:…then.. elif …then…else..fi” 的 方式 来 完成 条 件 选 择 ， 
如 果 a>b， 则 输出 GT， 如 果 a=b 则 输出 eq， 否 则 输出 LT: 


$ cat testl.sh 
4$!/bin/sh 
a-2 
b=2 
if [ $a -gt $b ] 
then 

echo "GT" 
elif [ $a -eq $b ] 
then 

echo "eq" 
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else 

echo "LT" 
fi 
$ ./testl.sh 
eq 
$ 


3) 下 面 的 例子 演示 了 如 何 通过 “ case…in…esac…” 语 句 来 完成 条 件 选 择 ， 程 序 输出 菜 
单 后 ， 用 户 选择 适合 的 菜单 项 ， 然 后 通过 case 系列 语句 读 取 用 户 的 选择 并 输出 : 


$ cat testl .sh 

#!/bin/sh 

echo "zzz2ze--2----2--L:----2---* 

echo "1.a" 

echo "2.b" 

echo *3.c" 

read mychoice 

case $mychoice in 
1) echo *'àa*";; 
2.) echo "b";; 
3 ) eecbo "etg 

esac 

exit 0 

./testl.sh 


vr 


5. 循环 

( 1) for 循环 

下 例 演示 了 如 何 通过 “ for…in…do…done ”的 语句 来 完成 循环 的 操作 : 程序 首先 执行 ls 
命令 ， 读 取 当 前 目录 下 的 文件 列表 ， 然 后 使 用 for 语句 逐个 读 取 文件 列表 并 输出 文件 名 。 


$ cat testl .sh 
#!/bin/sh 
for filename in 'l1s' 
do 

echo $filename 
done 
$ ./testl.sh 
1 
abc 
abd 
error.log 
hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
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hello 
mydoclist 


下 例 演 示 了 如 何 列 出 非 目 录 性 质 的 文件 的 操作 : 程序 首先 执行 ls 命令 ， 读 取 当 前 目录 下 
的 文件 列表 ， 然 后 使 用 for 语句 逐个 读 取 文件 列表 ， 对 列表 中 的 每 个 文件 使 用 “ -f” 进 行 检 
测 ， 如 果 是 文件 ， 则 输出 文件 名 ， 否 则 跳 过 不 处 理 。 


$ cat testl.sh 
4$!/bin/sh 
for filename in '1s' 
do 
if [ -f Sfilename ] 
then 
echo $filename 
fi 
done 
$ ./testl.sh 
Ed 
abc 
abd 
error.log 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
hello 
mydoclist 
myl2 
mylist 
mypylst 
mypylsti 
mypylst2 
myrun 
myse 
se 
testl.sh 
$ 


(2) while 循环 
下 例 演 示 了 while 循环 的 操作 ， 程 序 通过 while 循环 来 完成 将 变量 a 的 值 由 1 递增 到 9, 
并 输出 : 


$ cat testl.sh 
*!/bin/sh 
a-1 
while [ $a -1t 10 ] 
do 
echo $a 
a-'expr $a + 1' 
done 
$ ./testl.sh 


1 
2 
3 
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下 例 演示 了 如 何 使 用 while 循环 来 显示 所 有 的 偶数 ， 其 中 ,将 条 件 设 为 “:” 或 “true ， 
表示 恒 为 真 的 意思 : 


$ cat testl.sh 
$!/bin/sh 
a=0 
while : 
do 
let "àa-$a + 1" 
if [ $a -gt 20 ] 
then 
break 
Ei. 
if [ $(($a$2)) -eq 1] 
then 
continue 


下 例 演示 了 如 何 使 用 while 循环 来 实现 重 定向 IO 的 功能 : 


$ cat testl.sh 
#!/bin/sh 
while read name age 
do 
echo $name 
echo $age 
done<student .txt 
$ cat student.txt 
zhangsan 20 
lisi 18 
liumi 19 
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$ ./testl.sh 
zhangsan 


( 3) until 循环 
下 例 演 示 了 如 何 通过 until 循环 来 完成 变量 a 的 递增 ， 并 在 满足 条 件 (a>10 ) 后 退出 : 


$ cat testl.sh 
#!/bin/sh 
a=1 
until [ $a -gt 10 ] 
do 
echo $a 
a-'expr $a + 1' 
one 
./testl.sh 


d 
$ 
1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
$ 


下 例 演 示 了 如 何 通过 until 循环 来 进行 重 定向 : 


$ cat testl.sh 


*!/bin/sh 
until ! read name age 
do 


echo $name 

echo $age 
done«student.txt 
$ ./testl.sh 
zhangsan 


6. select 菜单 
select 使 用 PS3 环境 变量 的 值 作为 提示 符 ， 下 例 演 示 了 如 何 使 用 select 来 实现 类 似 菜单 


wwaibbt.com (10 0 0 B U 


的 功能 ， 用 户 在 年 龄 为 “<18”“<28” 和 <“60” 之 间 选 择 : 


$ cat testl.sh 
t$ !/bin/sh 
PS3-"choice:" 
echo 
select age in "«18" 
do 
echo 
echo 
break 
done 
exit 0 
$ ./testl.sh 
1) «18 
2) «28 
3) «60 
choice:2 
age is «28 


$ 
until 的 重 定向 示例 如 下 : 


$ cat testl.sh 
#!/bin/sh 
until ! read name age 
do 
echo $name 
echo $age 
done<student.txt 
$ ./testl.sh 
zhangsan 
20 
lisi 
18 
liumi 
T9 
$ 


"age is Sage" 


7. Shell 函数 


"<28" 


"<60" 


下 例 定义 了 函数 isodd， 用 于 判断 奇偶 数 : 


$ cat testl.sh 
$!/bin/sh 
isodd()í 
if [ $(($1$2)) 
then 
return 1 
else 
return 0 
fi 


-eq 1] 
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read mynum 
isodd Smynum 


myodd-$? 
if [ $myodd -eq 1 ] 
then 
echo "$mynum is an odd number" 
else 
echo "$mynum is an even number" 
fi 
$ ./testl.sh 
12 


12 is an even number 
$ ./testl.sh 


33 is an odd number 


43 Vim 编辑 器 


4.3.1. Vim 编辑 器 概述 

Vim 是 从 Vi 发 展 出 来 的 一 个 文本 编辑 器 。 代 码 补 充 、 编 译 及 错误 跳 转 等 便于 编程 的 功 
能 特别 丰富 ， 在 程序 员 中 被 广泛 使 用 。 与 Emacs 并 列 成 为 类 UNIX 系统 用 户 最 喜欢 的 编辑 
器 。Vim 的 操作 模式 很 特别 ， 它 强大 的 编辑 能 力 中 有 很 大 一 部 分 是 来 自 于 模式 和 命令 的 组 合 。 

命令 的 组 合 是 指 通过 一 些 非 常 简短 的 字符 (包括 英文 、 数 字 、 符 号 等 ) 组 合成 各 种 命令 。 
比如 : 普通 模式 命令 “ dd” 表示 删除 当前 行 ,“d ”表示 删除 到 下 一 行 ， 原 理 是 第 一 个 “d” 
的 含义 是 删除 ,“j” 键 表示 移动 到 下 一 行 ， 组 合 后 “dj ”表示 删除 当前 行 和 下 一 行 。 另 外 还 
可 以 指定 命令 的 重复 次 数 ,“2dd” (重复 “ dd” 两 次 ) 和 “ dj” 的 效果 是 一 样 的 。“ d^”， 其 
中 “^” 代 表 行 首 ， 故 组 合 后 的 含义 是 删除 从 光标 开始 到 行 首 间 的 内 容 (不 包含 光标 );“d$”， 
其 中 “$” 代 表 行 尾 ， 删 除 从 光标 到 行 尾 的 内 容 (包含 光标 ) ; 用 户 若 学 习 了 各 种 各 样 的 文本 
间 移 动 或 跳 转 的 命令 和 其 他 的 普通 模式 的 编辑 命令 ， 并 且 能 够 灵活 地 组 合 使 用 的 话 ， 那 么 就 
能 够 比 那些 没有 模式 的 编辑 器 更 加 高 效 地 进行 文本 编辑 。 

模式 的 组 合 是 指 通过 一 些 非 常 简短 的 英语 字符 就 可 转换 进入 各 种 模式 。 比 如 : 在 普通 
模式 中 ， 有 很 多 方法 可 以 进入 插入 模式 。 比 较 普 通 的 方式 是 按 “a”(append/ 追加 ) 键 或 “i” 
(insert/ 插入 ) 键 。 

可 通过 下 面 的 方式 来 启动 Vim: 

$vim 

启动 后 ， 显 示 界 面 如 图 4-1 所 示 。 

局 动 后 可 进行 一 些 简 单 的 操作 。 首 先 ， 可 按 i 键 进入 插 人 模式， 输入 字符 ， 如 图 4-2 
所 示 。 

然后 ， 按 Esc 键 退出 插入 模式 , 输入 “ :wgq! hello”， 并 以 “hello” 为 文件 名 ， 存 盘 
退出 。 
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:q<Enter> 
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最 后 ， 可 通过 cat 命令 显示 文件 内 容 ， 
所 示 : 


$ cat hello 
hello 
world! 


4.89.2 Vim 常用 命令 
1. 模式 转换 命令 
模式 间 切 换 的 方法 有 如 下 三 种 情况 。 
口 其 他 模式 转 普 通 模式 : Esc üt 
O 普通 模式 转 插入 模式 ， 如 下 列 命令 所 示 : 


~ 
~ 
~ 
~ 
~ 
~ 
~ 
~ 


i 在 光标 前 插入 I 在 行 首播 入 
a 在 光标 后 插入 A 在 行 末 插 入 
G 在 当前 行 之 下 新 建行 o 在 当前 行 之 上 新 建行 
r 替换 当前 字符 R 从 当前 字符 开始 蔡 换 


O 普通 模式 转 命 令 模式 : 按 “:” 键 。 
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:help sponsor«Enter» 查看 说 明 


退出 
:help<Enter> 或 <F1> 查看 在 线 帮助 
:help version7«Enter» 查看 版 本 信息 
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图 4-2 插入 模式 
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2. 常用 命令 

1) 可 以 使 用 以 下 方式 来 移动 光标 : 

jr k 向 上 

1 向 右 h HÆ 

w 下 一 个 单词 词 首 W 将 特殊 符号 视 为 单词 的 一 部 分 
b 上 一 个 单词 词 首 B 同上 

e 单 词 未 尾 E 同上 (忽略 标点 ) 

0 行 首 ^ 行 首 文字 ( 行 首 空格 之 后 ) 
$ ÍTR 

2) 可 用 以 下 方式 进行 编辑 : 

x 剪 切 当前 字符 dd 剪 切 当前 行 

y 复制 可 视 模 式 选 取 字符 yy 复制 当前 行 

p 在 光标 后 粘贴 P 在 光标 前 粘贴 

u 撤消 r 字 符 所 有 字符 替换 为 新 字符 
uU ~ 分别 是 所 有 字母 变 小 写 、 变 大 写 、 反 转 大 小 写 

> < 分 别 是 缩 进 和 反 缩 进 <Ctrltr> 重 做 


<Ctrl+y> 逐 字 克隆 上 一 行内 容 <Ctrl+e> 逐 字 克隆 下 一 行内 容 


44 虚拟 化 平台 


维基 百科 将 虚拟 化 ( Virtualization) 定义 为 :“ 虚 拟 化 是 一 种 资源 管理 技术 ， 是 将 计算 机 
的 各 种 实体 资源 ， 如 服务 器 、 网 络 、 内 存 及 存储 等 ， 予 以 抽象 、 转 换 ， 然 后 呈现 出 来 ， 打 破 
实体 结构 间 的 不 可 切割 的 障碍 ， 使 用 户 能 以 比 原本 的 组 态 更 好 的 方式 来 应 用 这 些 资 源 。 这 些 
资源 的 新 虚拟 部 分 是 不 受 现 有 资源 的 架设 方式 、 地 域 或 物理 组 态 所 限制 的 ， 一般 所 指 的 虚拟 
化 资源 包括 计算 能 力 和 数据 存储 。 可 以 看 到 它 始 终 如 一 的 目标 就 是 实现 对 IT 资源 的 充分 利 
HH." 与 多 任务 及 超 线 程 技术 不 同 的 是 ， 虚 拟 化 技术 允许 同时 运行 多 个 操作 系统 ， 而 且 每 一 
个 操作 系统 中 都 有 多 个 程序 在 运行 ， 每 一 个 操作 系统 都 运行 在 一 个 虚拟 的 CPU 或 是 虚拟 主 
机 上 。 而 超 线 程 技术 只 是 单 CPU 模拟 双 CPU 来 平衡 程序 运行 性 能 ， 这 两 个 模拟 出 来 的 CPU 
是 不 能 分 离 的 ， 只 能 协同 工作 ; 多 任务 则 是 指 在 一 个 操作 系统 中 多 个 程序 同时 一 起 运行 。 

1959 年 ， 克 里 斯 托 弗 ( Christopher Strachey) 发 表 了 一 篇 学 术 报 告 ， 名 为 “大 型 高 速 计 
算 机 中 的 时 间 共 享 "， 他 在 文中 提出 了 虚拟 化 的 基本 概念 ， 这 篇 文章 也 被 认为 是 虚拟 化 技术 的 
最 早 论述 。 可 以 说 虚拟 化 作为 一 个 概念 被 正式 提出 就 是 从 此 时 开始 的 。 最 早 在 商业 系统 上 实 
现 虚拟 化 的 是 IBM 公司 在 1965 年 发 布 的 IBM 7044， 它 允许 用 户 在 一 台 主 机 上 运行 多 个 操作 
系统 ， 让 用 户 尽 可 能 充分 地 利用 昂贵 的 大 型 机 资源 ， 之 后 IBM 还 开发 了 型 号 为 Model 67 的 
System/360 主机 ，Model 67 主机 通过 虚拟 机 监视 器 ( Virtual Machine Monitor) 虚拟 所 有 的 硬 
件 接口 。 在 早期 的 计算 中 ， 操 作 系 统 被 称 为 Supervisor， 能 够 运行 在 其 他 操作 系统 之 上 的 操 
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作 系 统 被 称 为 hypervisor，VMM 直接 运行 在 底层 硬件 上 ， 人 允许 执行 多 个 虚拟 机 ( VM)， 每 一 
^ VM 运行 自己 的 操作 系统 实例 (CMS, Conversational Monitor System). 1999 年 ，VMware 
在 X86 平台 上 推出 了 可 以 流畅 运行 的 商业 虚拟 化 软件 ， 从 此 ， 虚 拟 化 技术 由 大 型 机 领域 进入 
了 PC 服务 器 的 世界 。 

纵 观 虚 拟 化 技术 的 发 展 ， 虚 拟 化 技术 的 初衷 就 是 为 了 实现 更 高 的 设备 利用 率 ， 使 用 户 
能 够 尽 可 能 多 地 利用 系统 资源 ， 这 样 就 能 够 在 单个 服务 器 上 虚拟 多 个 系统 ， 然 后 以 少数 几 
台 计 算 机 来 完成 所 有 的 工作 ， 显 然 可 以 节省 耗 电 、 空 间 、 冷 却 和 管理 的 开支 ， 此 外 ， 考 虑 
到 确定 服务 器 利用 状况 的 困难 ， 虚 拟 化 技术 需要 支持 动态 迁移 (Live Migration)， 因 为 动态 
迁移 允许 将 操作 系统 迁移 到 另 一 台 全 新 的 服务 器 上 ， 从 而 减少 当前 主机 的 负载 。 展 望 虚拟 
化 技术 的 未 来 ， 很 可 能 将 整个 数据 中 心 全 面 虚拟 化 ， 使 用 户 能 够 获得 一 个 随 需 应 变 的 云 数 
据 平台 。 


4.4.1 Citrix Xenserver 概述 


Citrix Xenserver 是 思 杰 基于 Linux 的 虚拟 化 服务 咒 。 它 是 一 种 全 面 的 、 易 于 管理 的 服务 
器 虚拟 化 平台 ， 基 于 强大 的 Xen Hypervisor 程序 之 上 。Xen 技术 被 广泛 认为 是 业界 最 快速 、 
最 安全 的 虚拟 化 软件 ， 而 XenServer 则 是 为 了 高 效 地 管理 Windows 和 Linux 虚拟 服务 器 而 设 
计 的 ， 可 提供 经 济 高 效 的 服务 器 整合 ， 并 能 保证 业务 的 连续 性 。 

XenServer 可 提供 在 云 计算 环境 中 经 过 验证 的 企业 级 虚拟 化 平台 ， 可 提供 创建 和 管理 虚 
拟 基 础 架构 所 需 的 所 有 功能 ， 深 得 很 多 要 求 苛刻 的 企业 的 信赖 ， 被 广泛 用 来 运行 最 关键 的 应 
用 ， 而 且 被 最 大 规模 的 云 计 算 环 境 和 xSP 所 采用 。 

XenServer 分 为 免费 版 和 了 Premium 版 ， 它 们 各 自 的 特征 如 下 : 

口 免费 版 XenServer 配备 有 64 位 系统 管理 程序 和 集中 管理 、 实 时 迁移 及 转换 工具 ， 可 

创建 一 个 虚拟 化 平台 来 最 大 限度 地 提高 虚拟 机 的 密度 和 性 能 。 

O Premium 版 XenServer 对 平台 进行 了 更 深层 的 扩展 ， 可 帮助 任何 规模 的 企业 实现 管理 
流程 的 集成 和 自动 化 ， 是 一 种 先进 的 虚拟 数据 中 心 解决 方案 。 

XenServer 可 整合 服务 器 工作 负载 ， 进 而 节约 电源 、 冷 却 和 管理 成 本 ， 能 更 有 效 地 
适应 不 断 变 化 的 IT 环境， 优化 利用 现 有 的 硬件 设备 并 提高 IT 的 可 靠 性 ， 主 要 拥有 以 下 
优势 : 

口 将 IT 成 本 降低 50% 甚至 更 多 。 虽 然 服 务 器 整合 通常 是 实施 服务 器 虚拟 化 的 主要 驱动 
因素 ， 但 企业 可 以 获得 更 多 的 优势 ， 而 不 仅仅 只 是 服务 器 总 数量 的 减少 。XenServer 
虚拟 化 管理 工具 可 以 将 服务 器 的 要 求 降低 10 倍 。 数 据 中 心 内 的 服务 器 整合 可 以 降低 
功 耗 和 管理 成 本 ， 同 时 还 可 以 打造 更 绿色 环保 的 IT 环境 。 

口 提 高 I 江 灵活 性 。 虚 拟 化 使 数据 中 心 能 够 灵活 地 适应 不 断 变化 的 IT 要 求 。 例 如 ， 
XenServer 可 以 创建 出 能 够 无 颖 集成 现 有 存储 环境 的 虚拟 基础 架构 。 这 样 就 可 以 缩短 
IT 部 门 满足 用 户 需求 所 需 的 时 间 。 

O 确保 服务 器 性 能 。XenServer 可 以 优化 服务 器 工作 负载 的 位 置 ， 提 高 性 能 和 利用 率 ， 
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同时 改进 资源 池内 的 服务 器 准备 情况 。 这 样 便 可 确保 始终 能 够 达到 应 用 的 要 求 和 预期 
的 性 能 标准 ， 帮 助 企 业 加 快 向 生产 环境 中 交付 新 应 用 的 速度 。 

口 最 大 限度 地 减少 服务 器 罕 机 。XenServer 可 以 有 效 地 减少 计划 内 服务 器 宕 机 ， 减 小 故 
障 的 影响 ， 预 防 灾 难 并 搭建 始终 可 用 的 虚拟 基础 架构 。 服 务 器 和 应 用 的 升级 可 以 在 正 
常 的 工作 时 间 内 完成 。 这 样 就 可 以 减 小 对 用 户 生 产 率 的 影响 ， 节 约 成 本 , 使 IT 人 员 
在 晚上 和 周末 都 能 正常 休息 。 


4.4.2 Citrix Xenserver ZB 


Citrix Xenserver 与 传统 虚拟 机 类 软件 不 同 ， 它 无 需 底层 原生 操作 系统 的 支持 ， 也 就 是 
说 XenServer 本 身 就 具备 了 操作 系统 的 功能 ， 是 能 直接 安装 在 服务 器 上 引导 启动 并 运行 的 ， 
其 稳定 性 较 Hyper-V 高 ， 对 Windows 2008 R2 及 Linux Server 提供 了 良好 的 支持 ， 此 外 ， 
Citrix 还 提供 了 XenCenter 工具 ， 可 通过 图 形 化 的 控制 界面 ， 直 观 地 管理 和 监控 XenServer 
服务 器 的 工作 。 例 如 : 将 一 台 性 能 强劲 的 服务 器 划分 成 多 台 服 务 器 ， 证 这些 服 务 器 同时 运 
行 以 提供 各 种 应 用 服务 ， 节 省 硬件 投资 ， 也 方便 管理 。 假 设 公司 只 有 一 人 台 Web 服务 器 ， 因 
为 公司 业务 发 展 ， 现 在 需要 增加 邮件 服务 、BBS 客户 服务 ， 实 际 上 无 须 购买 三 台 物 理 服 
务 器 来 分 别 实现 上 述 功能 ， 而 只 须 使 用 XenServer 在 一 台 物 理 服 务 器 上 创建 三 台 虚 拟 的 服 
务 器 ， 运 行 各 自 的 操作 系统 和 应 用 服务 ， 某 台 虚 拟 服务 器 的 罕 机 也 不 会 影响 到 其 他 虚拟 服 
务 器 。 

XenServer 的 部 署 很 简单 ， 安 装 界 面 人 性 化 且 有 详细 的 提示 ， 前 提 是 : 安装 XenServer 
的 PC 服务 器 没有 安装 任何 操作 系统 ， 且 拥有 至 少 一 块 网 卡 。 下 载 XenServer 的 安装 ISO X 
件 ， 刻 录 成 光盘 插入 服务 器 的 光驱 后 ， 启 动 服务 器 即 可 安装 。 


o: XenServer 官网 地 址 为 : http://www.citrix.com/products/xenserver/ 
XenServerg 下 载 地 址 为 : http://downloadns.citrix.com.edgesuite.net/7281/XenServer- 
6.2.0-install-cd.iso 
XenServer 官方 安装 文档 可 以 从 如 下 网 址 下 载 : httpi//www.citrix.com/content/dam/citrix/ 
en us/documents/products-solutions/citrix-xenserver-quick-installation-and-licensing- 


guide.pdf 





4.4.8 F XenCenter 的 虚拟 服务 器 管理 


XenServer 可 通过 客户 机 安装 管理 工具 XenCenter 进行 管理 。XenCenter 采用 基于 图 形 用 
户 界面 的 管理 控制 台 ， 该 控制 台 可 安装 在 任何 Windows PC 或 服务 器 上 。XenServer 安装 完毕 
后 ， 直 接 使 用 浏览 器 访问 XenServer 的 IP Hih, FÆ XenCenter 并 安装 。 也 可 在 XenServer 
的 安装 光盘 或 ISO 文件 内 找到 XenCenter 的 安装 程序 ， 双 击 执行 文件 XenCentermsi 后 ， 按 
提示 一 步 步 安装 即 可 ， 如 图 4-3 和 图 4-4 所 示 。 
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iB citrixguestagentx64 2013/6/14 21:33 Windows Install. 
il) citrixguestagentx86 2013/6/14 2:33 Window install... 
al) citrixvssx64 2013/6/14 21:33 Windows Install. 
iP citrixvssx86 2013/6/14 2133 Windows Install.. 
J -iarpoendriversx64 2013/6/14 21:33 s Install. 
iB) citrimendriversx86 2013/6/14 21:33 — Windows Install... 


JË installwizard 2013/6/14 21:33 —— Windews Install... 

人 windows-pvdrivers-xenlegacy 2013/6/14 2140 KABES 1618 KB 

BẸ xe-cli-6.2.0-70442c.1686 2013/6/14 2120 RPM 文件 958 KB 
2013/6/14 21:55 Kankan ICO Ej 


] XenCenter fS LER: 2013/6/14 21:55 创建 日 最 2013/6/14 21:55 
Windows Installer 程序 包 Auju 484 MB 





图 4-3 XenCenter 安装 包 


Welcome to the Citrix XenCenter Setup 
Wizard 


The Setup Wizard allows you to change the way Citrix 
XenCenter features are installed on your computer or to 
remove it from your computer. Cick Next to continue or 
Cancel to exit the Setup Wizard. 





图 4-4 XenCenter 安装 程序 


安装 完 XenCenter 后 启动 ， 其 界面 如 图 4-5 所 示 。 
在 XenCenter 处 点 击 鼠 标 右键 ， 选 择 Add 或 点 击 上 方 工具 条 中 的 Add New Server 按钮 
增加 一 台 XenServer 服务 器 ， 输 入 服务 器 IP 和 root 账户 密码 。 如 图 4-6 所 示 。 


ww ai bot. com [1 BH B. BD BL O 


128 we 第 二 部 分 基 础 篇 


File View Pool Sewer VM Storage Templates Took Window Help 
eo roses ~ | E Add New Server | WI New Pool TM. New Stosge M nevm | oem GE Reboot Qoo 





Citrix XenServer 
Industry leading, open source platform for cloud, server and desktop virtualization 


LEARN UPGRADE TRY 
about using XenServer Desktop 
XenCenter Virtualization 


Community Support Partners 





* Network with other XenServer users 
* Visit the Citrix Knowledge Center 


* Learn more about partner offerings 








图 4-5 XenCenter 界面 


Enter the host name or IP address of the server you want to add 


1921681100 — 
User login credentials 





Password: seseo] 





图 4-6 增加 一 人 台 XenServer 服务 器 


OE 一 台 XenServer 服务 器 即 一 台 物 理 服 务 器 ， 而 不 是 指 虚拟 服务 器 ，XenCenter 可 同时 
管理 多 台 XenServer 服务 器 及 运行 在 XenServer 服务 器 上 的 虚拟 服务 器 。 


当 XenCenter 成 功 连 接 服务 器 后 ， 可 看 到 服务 器 的 信息 ， 如 图 4-7 所 示 ， 在 此 XenServer 
服务 器 上 一 共 建 立 了 三 台 虚 拟 服务 器 ， 服 务 器 前 面 的 小 图 标 表示 服务 器 当前 的 状态 ， 其 中 
ddb-template 服务 咒 正 在 运行 中 ， 另 外 两 台 服 务 器 处 于 关机 状态 。 
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(Pool Sewer VM Storage Templates Too Window Help 


| Bl Ada New Server | HIE New Poot BB) New Storage M New vm 








L] hadoop-template 


机 pp-template 
Gli DVD drives 


ie Local storage 


ddb-template 
igi Removable storage 


Description: 

Tags: 

Folder: 

Operating System: 

BIOS strings copied: 

Virtualization state: 

Time since startup: 0 minutes 


| | UUID: 33f62fba-d1b2-36ce-621e-c6lcd2dfe7da 





Boot Options 








图 4-7 服务 器 的 信息 


选择 某 台 虚拟 服务 器 ， 点 击 鼠 标 右键 ， 将 出 现 管理 菜单 ， 可 对 虚拟 服务 器 进行 管理 ， 比 
如 重启 、 关 机 等 ， 如 图 4-8、 图 4-9 所 示 。 





63777693-265c-7fa5-c013-b964bd2e2783 





图 4-8 ”对 虚拟 服务 器 进行 启动 、 拷 贝 、 创 建 快 照 等 操作 
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VM | Storage empla: Window ^ Help 





(Back ~ We dd NewServer | WEI New Pool WH New Storage IE] New VM 
d L5 : ge ue 


Views: 


Sar 












| i Q xacenter 
3 By xenserver-myhasp! 
Force Shutdown j 
Force Reboot i 
[| 
" 
is ie dives Take a Snapshot... i 
fi Local s stora I is i 
liil RemovabM Aiii vA pg "| Pipe 
| install XenServer Tools, | 
| 
Properties [ <Nene> 
Felder: «Mone» 
Operating System: Unknown 
BIOS strings copied: No 
Virtualization state: 
Time since startup: 








uulp: 


图 4-9. ”对 虚拟 服务 需 进 行 重启 、 关 机 等 操作 





选择 某 台 虚拟 服务 器 后 ， 点 击 Console 选项 卡 ， 可 查看 当前 虚拟 服务 器 的 运行 情况 ， 如 
图 4-10 所 示 。 





p db temple on 'xenserver-i myhaspl ， Logged im as 


gerent] f, Storage | Networking | C: Console eromance | snapshots [Logs - 





Linux 7 
3.18.8 


7.xü6 b4 on an x86 64 





El 4-10. 虚拟 服务 需 的 运行 情况 


虚拟 服务 器 的 创建 很 简单 ， 只 须 点 击 上 方 工 具 条 的 New VM 按钮 即 可 ， 如 图 4-11 至 
图 4-19 所 示 。 创 建 完 虚拟 服务 器 后 ， 将 操作 系统 的 安装 光盘 放 人 XenServer 服务 器 的 光驱 ， 
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即 可 继续 在 该 虚拟 服务 器 上 安装 操作 系统 。 


Installation Media 
Home Server 
CPU & Memory 
Storage 
Networking 





图 4-11 








E NM 


FOJ Ubuntu Maverick Meerkat 10.10 (64- bit) (exp... 


Ij Ubuntu Precise Pangolin 12.04 (32-bit) 

XJ Ubuntu Precise Pangolin 12.04 (64-bit) Ubuntu 
o Citrix XenApp on Windows Server 2003 (32-b... Citrix 
o Citrix XenApp on Windows Server 2003 (64-b... Citrix 
图 Citrix XenApp on Windows Server 2008 (32-b.... Citrix 
IQ) Citrix XenApp on Windows Server 2008 (54-b... Citrix 

Citrix XenApp on Windows Server 2008 R2 (6... Citrix 


[E] Copy host BIOS strings to VM 
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^| Template details 


Wf the operating system you plan 
to use is not listed, you may be 
able to install it by selecting this 
template. We recommend that 


选择 虚拟 机 模板 ， 可 不 选择 已 有 模板 





Enter a name that will help you to identify the virtual machine later. This could be a name that describes its 
software and hardware such as RHEL DHCP Server, Win2IG XenApp Server or Exchange 2007 Client Access 
Server. This name will also be displayed in XenCenter's Resources pane and can be changed later. 


You can also add a more detailed description of the VM, if you wish. 











图 4-12 虚拟 服务 器 命名 
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Installation Media 


Home Server 
CPU & Memory 
Storage 
Networking 
Finish 
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图 4-14 选择 虚拟 服务 器 空间 占有 的 物理 硬盘 
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idi Allocate processor and memory resources 


Template 
Name i 
|| Installation Media Number of vCPUs: 


Memory: 




















[ic Previous:] [Ne] [Cancer] 
图 4-15 选择 虚拟 服务 器 需要 使 用 的 CPU 和 内 存 数量 





unm 





The virtual machine template you selected earlier provides the virtual disks listed below. You can change the 
properties of these virtual disks, and add more disks if required. 


Alternatively, you can select the second option below to create a diskless VM that can be booted from the 
network and does not use any virtual disks, 


When you have finished configuring disks for the new virtual machine, click Next to continue to the next 
step. 


Enter a name, description and size for your virtual disk. The size of your disk and the home server setting 
cf any VM the disk belongs to will affect which storage locations are available. 





Name: New virtual disk 
ECT es 


[.... "0 n) 


Location: — gg Local storage on xenserver-myhaspl 597.55 GB tree of 909.01 GE 











图 4-16 为 虚拟 服务 器 分 配 硬盘 空间 
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Template 

Name 
Instaliation Media 
Home Server 


| cPU& Memory 


Storage 











基 du 篇 


Ta ed ee selected ea provides 
propere: of nes viua dis, o and add Ficus 


Alternatively, you can select the second option below to create a diskless VM that can be booted from the 
network and does not use any virtual disks. 


When you have finished configuring disks for the new virtual machine, click Next to continue to the next 


E] Use stosage-Ieyel fast disk cione 


Ø) Crente a diskies: VM that boots from the network 


图 4-17 硬盘 空间 分 配 完毕 ， 可 继续 分 配 


The virtual machine template you have selected provides the virtual network interfaces listed below. You 
can configure or delete the default virtual network interfaces here, and add more if required. 


Virtual network interfaces on centos? 


© Vang apes PEE ALEI E BE Up fo EFO netu E E EE 
VM creation. To configure more than 4, create a Custom template or add extra virtual 
network interfaces from the Network tab after creating the new VM. 








图 4-18 选择 虚拟 服务 器 使 用 的 物理 网 卡 
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BỌ reenter — 
E] & xenserver-myhaspl 
B 3 


B ddb-template 
局 hadoop-template 
© pp-template 
DVD drives 
hg Local storage 
i Removable storage 





图 4-19 创建 成 功 后 的 虚拟 服务 器 centos7 


4.5 Linux 环境 下 的 NumPy 安装 


NumPy ( Numeric Python) 是 用 Python 实现 的 一 个 科学 计算 包 ， 提 供 了 许多 高 级 的 数值 
编程 工具 ， 如 : EERIK, REH, UKARAE. FAL Centos 为 例 ， 讲 解 
NumPy 在 Linux 下 的 安装 ， 安 装 过 程 如 下 所 示 。 

1) 下 载 NumPy， 网 址 为 : http://www.scipy.org/scipylib/download.html。 

2) 系统 更 新 : 


[myhaspl@localhost -]$ su 
[root@localhost myhaspl]£& yum install update 
3) 安装 相关 工具 : 


[root8localhost myhaspl]# yum install wget 
[rootQlocalhost myhaspl]# yum install unzip 
[rootàlocalhost myhaspl]# yum install gcc 
[root&localhost numpy-1.9.0]4$ yum install python-devel 


4) 下 载 NumPy 源码 并 解压 : 


[rootàlocalhost myhaspl]# wget 
http://jjaist.dl.sourceforge.net/project/numpy/NumPy/1.9.0/numpy-1.9.0.zip 


5) 安装 NumPy: 
[root@localhost myhaspl]# unzip numpy-1.9.0.zip 


[root@localhost myhaspl]4* cd numpy-1.9.0 
[rootàlocalhost numpy-1.9.0]4 python setup.py install 


6) 安装 完毕 后 重启 : 
[root8localhost numpy-1.9.0]# reboot 


7) 测试 安装 是 否 成 功 ， 如 果 能 导入 NumPy 库 ， 则 表示 安装 成 功 : 
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[myhaspl@localhost -]$ python 
Python 2.7.5 (default, Jun 17 2014, 18:11:42) 
[GCC 4.8.2 20140120 (Red Hat 4.8.2-16)] on linux2 


Type "help", "copyright", "credits" or "license" for more information. 
>>> import numpy as np 
>>> 


4.6 Linux 环境 下 的 R 运行 环境 


R 语言 是 一 套 完整 的 数据 处 理 、 计 算 和 制图 软件 系统 ， 主 要 用 于 统计 分 析 。 以 CentOS 
为 例 ， 可 依次 输入 以 下 命令 ,安装 R 运行 环境 : 


yum install gcc-gfortran 
yum install gcc gcc-c+t+ 
yum install readline-devel 
yum install libXt-devel 
wget http://(mmirror.bjtu.edu.cn/cran/src/base/R-3/R-3.l.l.tar.gz 
4 tar zxvf R-3.1.1.tar.gz 
Kcd R-3.1.1 

d$./configure 

#make 

#make install 

#make check 


w H +H 


#ln -s /home/myhaspl/R-3.1.1/bin/R /usr/local/bin/R 


$R 


4. PyPy 编译 器 
4.7.1 PyPy 概述 


CPython 是 用 C 语言 实现 的 Python 解释 器 ， 也 是 官方 的 并 且 是 最 广泛 使 用 的 Python 解 
释 器 。 但 它 并 不 是 唯一 的 选择 ， 它 使 用 字 节 人 码 的 解释 涡 ， 任 何 的 程序 源 代码 在 执行 之 前 都 要 
先 编译 成 字 节 码 ， 这 样 必然 会 影响 到 Python 程序 的 执行 效率 。 此 外 ，CPython 还 存在 一 个 问 
题 ， 在 多 处 理 需 的 计算 机 上 使 用 CPython 要 受 GIL (Global Interpreter Lock) 的 约束 ，GIL 使 
得 CPython 不 能 进行 并 发 编程 ， 要 做 到 并 发 编程 ， 就 必须 为 每 一 个 线程 运行 一 个 解释 器 ， 但 
是 它们 之 间 的 通信 就 会 非常 困难 。 

PyPy 是 Python 开发 者 为 了 更 好 地 Hack Python 而 创建 的 项 目 ， 它 比 CPython 更 加 灵活 、 
更 容易 实施 。PyPy 支持 Python 语言 的 所 有 核心 部 分 及 大 多 数 的 Python 语言 标准 库 函 数 模块 ， 
并 且 通 过 了 Python 语言 的 test suite。 更 为 重要 的 是 PyPy 实现 了 动态 编译 ， 提 供 了 JIT 编译 
器 和 沙 盒 功 能 ， 运 行 速度 比 CPython 要 快 很 多 ， 还 可 以 安全 地 运行 一 些 不 被 信任 的 代码 ， 此 
外 ，PyPy 还 有 支持 微 线程 的 版 本 。 目 前 PyPy 的 最 新 版 本 主要 拥有 以 下 特征 : 

O 更 快 的 速度 。 在 JITQust-in-Time) 编译 器 的 帮助 下 ,Python 程序 能 在 PyPy 下 跑 得 更 快 。 
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口 更 高 的 内 存 使 用 效率 。 相 对 CPython 来 说 ，PyPy 能 更 有 效 地 利用 内 存 ， 尤 其 是 几 
百 兆 或 更 多 的 内 存 。 

口 兼容 性 。PyPy 对 现 有 的 Python 程序 有 更 好 的 兼容 性 ， 它 不 仅 支 持 cffi， 还 能 运行 流 
行 的 Python 库 ， 比 如 Twisted, Django 等 。 

口 沙 盒 。PyPy 可 以 安全 地 运行 一 些 不 被 信任 的 代码 。 

口 Stackless。PyPy 原生 支持 Stackless 模式 ， 提 供 了 真正 的 多 线程 并 发 。 





e 关于 PyPy 的 更 多 资料 可 以 在 官网 http://www.pypy.org/ 中 查看 。 


4.7.2 PyPy 安装 与 配置 


下 面 以 64 位 centos7 (最 小 化 安装 ) 为 例 ， 讲 解 如 何 安装 和 配置 PyPy。 
首先 ， 依 次 输入 以 下 命令 ， 下 载 并 编译 PyPy: 


yum install gcc 

yum install wget 

wget https://bitbucket.org/pypy/pypy/downloads/pypy-2.3.1-src.tar.bz2 
tar jxvf pypy-2.3.1-src.tar.bz2 

yum install libffi-devel 

yum install expat-devel 

yum install ncurses-devel 

yum install bzip2-devel 

yum install openssl-devel 

[rootG8localhost myhaspl]t& cd pypy-2.3.1-src/pypy/goal 

* python ../../rpython/bin/rpython -Ojit targetpypystandalone 


然后 ， 安 装 适用 于 PyPy 的 numpy &: 


de 3k db db db db db dE dk 


# git clone https://bitbucket.org/pypy/numpy.git 
# cd numpy 
# pypy setup.py install 


最 后 ， 为 方便 PyPy 的 调用 ， 可 以 使 用 In 命令 建立 软 链接 ，ln 是 Linux 中 一 个 非常 重要 
的 命令 ， 它 的 功能 是 为 某 一 个 文件 在 另外 一 个 位 置 建立 一 个 不 同 的 链接 ， 具 体 用 法 如 下 : 
ln -s HXH 目标 文件 


4.7.8 PyPy 性 能 


PyPy 执行 Python 程序 的 速度 比 CPython 要 快 很 多 。 下 面 以 除法 与 累加 混合 计算 为 例 ， 
验证 PyPy 的 效率 。 测 试用 Python 程序 如 下 : 

import time 

start-time.clock() 


sum=0 
i-1.0 
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while (i<10000000): 
sum+=i/2.22 
i=i+1 
print "sum:$f"$sum 
end - time.clock() 
print "seconds:$f"£$( end- start) 


分 别 用 CPython 和 PyPy 运行 上 面 的 程序 ， 结 果 如 下 : 


$ python pythontest.py 
$sum:22522520270270.273438 
seconds:4.090000 

$ ./pypy pythontest.py 
Sum:22522520270270.273438 
seconds:0.256000 


从 上 面 的 程序 运行 效果 来 看 ，PyPy 计算 只 用 了 0.256 000 £5, mi CPython W ZE T 
4.090 000 秒 ，PyPy 对 运行 效率 的 提升 是 数量 级 的 ， 也 是 显而易见 的 。 


4.7.4 PyPy 实践 之 Lempel-Ziv 压缩 


Lempel-Ziv 算法 采用 动态 无 损 数 据 压缩 算法 对 字符 串 进行 动态 编码 和 解码 ， 以 达到 压 
缩 和 解压 文本 的 目的 。Lempel-Ziv 算法 基于 在 正文 流 中 很 可 能 会 出 现 词汇 和 短语 重复 的 情况 
而 开发 的 ， 当 出 现 一 个 重复 时 ， 将 重复 的 序列 用 一 个 得 的 编码 来 代替 ， 压 缩 程序 扫描 这 样 的 
重复 ， 同 时 生成 编码 来 代替 重复 序列 ， 随 着 时 间 的 推移 ， 编 码 可 以 重用 来 捕获 新 的 序列 ， 此 
外 ，Lempel-Ziv 算法 设计 成 解压 程序 能 够 以 编码 和 原始 数据 序列 推导 出 当前 的 映射 。 

Lempel-Ziv 算法 的 关键 在 于 查找 重复 的 序列 ， 当 碰 到 一 个 重复 时 ， 算 法 继续 扫描 直到 该 重 
复 序列 终止 为 止 。 以 下 面 这 段 文本 为 例 对 Lempel-Ziv 编码 进行 讲解 ， 假 设 需要 压缩 的 文本 如 下 : 

abaaaabaabaaabbbbbbbabbbbbbbabbbbbaababaababa…: 

应 用 Lempel-Ziv 算法 逐步 对 上 述 文本 进行 编码 : 

1) 建立 一 个 码 表 空 字典 DICT. 

2) 读 入 第 1 个 字符 “a”,DICT 中 无 “a” 字 符 ， 且 为 空 ， 因 此 将 “a” 增 加 到 DICT 中 ， 
索引 为 1， 编码 为 “0a”。 最 终 编 码 结果 为 :“0a”。 

3) 读 入 第 2 个 字符 “b”，DICT 中 无 “b” 字 符 ， 因 此 将 “b” 增 加 到 DICT 中 ， 索 引 
为 2， 编码 为 “0b”。 最 终 编码 结果 为 :“0a0b”。 

4) 读 入 第 3 个 字符 “a”，DICT 中 有 “a” 字 符 且 索引 为 1， 此 时 ,将 紧 跟 其 后 的 第 4 
个 字符 “a” 与 第 3 个 字符 “a” 合 并 成 一 个 码 段 “aa”， 编 码 为 “1a”， 然 后 将 “aa” 增 加 
到 DICT 中 ， 索 引 为 3。 最 终 编码 结果 为 :“0a0bla"”。 

5) 第 4 步 已 经 处 理 过 第 4 个 字符 了 ， 因 此 从 第 5 个 字符 开始 ， 读 入 第 5 个 字符 “a” 和 
第 6 个 字符 “a"，DICT 中 有 “aa” 字 符 且 索引 为 3， 此 时 ， 将 紧 跟 其 后 的 第 7 个 字符 “b” 
与 第 5、6 个 字符 组 成 的 串 “ aa” 合 并 成 一 个 码 段 “ aab”， 编 码 为 “3b”， 然 后 将 “aab” 增 
加 到 DICT 中 ， 索 引 为 4。 最 终 编码 结果 为 :“0a0bla3b”。 
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接 下 来 ， 按 类 似 的 方法 继续 处 理 ， 直 到 读 取 完 毕 所 有 需要 压缩 的 字符 才 结束 ， 最 终 形成 
表 4-1 所 示 的 编码 结果 


表 4-1 Lempel-Ziv 算法 编码 


本 
[s [s [e i je | 
aia | aa | th | un | at | wi cba | metaie | 


下 面 用 Python 来 实现 Lempel-Ziv 压缩 算法 ， 程 序 如 下 所 示 。 


4 -*- coding: utf-8 -*- 
flempel-ziv 算法 
#code:myhaspl@myhaspl .com 












#4-1 .py 
# 待 压缩 字符 串 
my str-"""Ubuntu 14.04 LTS includes a wealth of smart filters to make it faster 


and easier to find the content you need, whether it' s stored on your computer or on 
the web.Type any query into the Dash home and the Smart Scopes server will determine 
which categories of content are the most relevant to your search, returning only 
the best results. The server constantly improves its results by learning which 
categories and results are most useful to you over time.""" 

4 E 

codeword dictionary-í) 

# 待 压缩 文本 长 度 

str len-len(my str) 

# 码 字 最 大 长 度 

dict maxlen-1 

# 将 解析 文本 段 的 位 置 (下 一 次 解析 文本 的 起 点 ) 

now index-0 

# 码 表 的 最 大 索引 


max index-0 


E 
compressed str-"" 


while (now, index«str len): 
# 向 后 移动 步 长 
mystep=0 
# 当前 匹配 长 度 
now len-dict maxlen 
if now len»str len-now index: 
now len-str len-now index 
# 查找 到 的 码 表 索 引 ，0 表示 没有 找到 
cw addr-0 
while (now len»50): 
cw. index-codeword dictionary.get (my str[now index:now index«now. len]) 
if cw index!-None: 
# 找到 码 字 
cw addr-cw index 
mystep-now len 
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break 
now len--1 
if cw. addr--0: 
# 没有 找到 码 字 ， 增 加 新 的 码 字 
max index4-1 
mystep-1 
codeword dictionary [my str[now index:now index«mystep]]-max index 
print "don't find the Code word,add Code word:$s index:$d"$(my str[now. 
index:now index«mystep],max index) 
else: 
# 找到 码 字 ， 增 加 新 的 码 字 
max index-^4-1 
codeword dictionary [my str(now index:now index«mystep«1]]-max index 
if mystep«1»dict maxlen: 
dict maxlen-mystep4l 
print "find the Code word:$s add Code word:$s index:$d"$(my str[now. 
index:now index«now len],my str[now index:now index«mystep«1],max index) 


# 计算 压缩 后 的 结果 
cwdindex-'$d'£cw addr 
if cw addr--0: 
cwlater-my str[now index:now index-«1] 
now index4-1 
else: 
now index«-mystep 
cwlater-my str[now index:now index«1] 
now index«-1 
cw-cwdindex«cwlater 
compressed str-«-cw 
print "Nueeeee——— ers ere uiii ceterum temet Xi" 
print my str 
print RN qs ee de ee e e hee e Ke e e Ke ee Ree e o Re CR KIKI pun 
print compressed str 
print *XAgeeee—————eeeeee—eeu e An" 


现在 用 以 上 程序 将 下 面 的 文本 进行 压缩 : 


Ubuntu 14.04 LTS includes a wealth of smart filters to make it faster and easier 
to find the content you need, whether it' s stored on your computer or on the web. 
Type any query into the Dash home and the Smart Scopes server will determine which 
categories of content are the most relevant to your search, returning only the best 
results. The server constantly improves its results by learning which categories and 
results are most useful to you over time. 


压缩 结果 为 : 


0U0bouonot3 01040.008 OLOTOSO 0i4c013d0e0s15a15w20a18t0h1500f15s0m0a0r5 
28i125e32s15t0015m31k20 16t15f31s5e32 31n0d15e44i20r37043i4d37h41c38n45n33y38u15n20e48, 
23h20t26e46i5€01 21t38r20d27n15y60r15c38m0p3t51 73 57 5h41w20b9T0y80e22n89 
0q3e32y15i4t38 85e15D44n15h79e91d55e15830a32t106c38p20s29e32v82w16118 48e45r30i4e64i0c26 
122a45g73ill1 38f78097e97 31r41t66 30072 32e18e0v47t52 8903r112a32c26,15r65u32n16n0g7519 
2t134b111t147e21u25s9 13h41s51v82c57s5a97192i30p320139e71i5s156s31172 2y15124r4i4g121c12 
3c31t20g126e71a54 137s174t186r41m38s33u21e28u116t98y60 38v82tl16m20. 
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下 面 使 用 PyPy 运行 程序 4-1.py， 将 程序 依次 读 和 文本， 扩充 码 表 字 典 ， 最 终 输 出 压缩 
结果 ， 如 下 : 


$pypy 4-1.py 

don't find the Code word,add Code word:U index:1 
don't find the Code word,add Code word:b index:2 
don't find the Code word,add Code word:u index:3 
don't find the Code word,add Code word:n index:4 
don't find the Code word,add Code word:t index:5 
find the Code word:u add Code word:u  index:6 
don't find the Code word,add Code word:1 index:7 
don't find the Code word,add Code word:4 index:8 
don't find the Code word,add Code word:. index:9 


137s174t186r41m38s33u21e28u116t98y60 38v82tl16m20. 


程序 4-1.py 在 压缩 时 生成 了 码 表 ， 这 就 带 来 了 一 个 问题 : 码 表 字典 文件 会 很 大 ， 而 每 个 
压缩 文件 都 要 将 码 表 附带 上 ， 这 样 就 无 法 达到 压缩 文件 尺寸 的 作用 。 实 际 上 Lempel-Ziv 算 
法 在 压缩 文件 中 并 不 需要 存放 码 表 ， 可 在 解压 时 自动 生成 码 表 ， 此 外 ， 同 时 还 可 根据 被 压缩 
文件 的 大 小 确定 索引 是 整 型 、 长 整 型 还 是 字 节 型 ,这样 就 可 动态 地 调整 在 压缩 文件 中 索引 所 
占有 的 空间 ， 保 证 了 压缩 率 。 下 面 用 Python 实现 对 文本 文件 进行 Lempel-Ziv 压缩 与 解压 缩 ， 
程序 如 下 所 示 : 


# -*- coding: utf-8 -*- 
*lempel-ziv 压缩 与 解压 缩 文件 
#code:myhaspl@myhaspl .com 
#4-2.py 
import struct 
import sys 
txtfilename-sys.argv[1] 
compressfn-sys.argv[2] 
mystr-"" 
print "Wn ŽRE XH ".decode("utf8") 
mytextfile- open(txtfilename, 'r') 
try: 

mystr-mytextfile.read( ) 
finally: 

mytextfile.close() 
my str-mystr 
# 码 表 
codeword dictionary-í) 
8 待 压 缩 文本 长 度 
str len-len(my str) 
# 码 字 最 大 长 度 
dict maxlen-1 
# 将 解析 文本 段 的 位 置 (下 一 次 解析 文本 的 起 点 ) 
now, index=0 
# 码 表 的 最 大 索引 


max index-0 
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# 压缩 后 的 数据 
print "\n 生成 压缩 数据 中 " .decode ("utf£8") 
compresseddata-[] 
while (now index«str len): 
# 向 后 移动 步 长 
mystep=0 
# 当前 匹配 长 度 
now len-dict maxlen 
if now len»str len-now index: 
now len-str len-now index 
# 查找 到 的 码 表 索 引 ，0 表示 没有 找到 
cw addr-0 
while (now len»0): 
cw index-codeword dictionary.get (my str[now index:now index«now len]) 
if cw index!-None: 
# 找到 码 字 
cw addr-cw index 
mystep-now len 
break 
now len--1 
if cw addr--0: 
# 没有 找到 码 字 ， 增 加 新 的 码 字 
max index«-1 
mystep-1 
codeword dictionary [my str[now index:now index«mystep]]-max index 
print "don't find the Code word,add Code word:$s index:$d"$£(my str[now. 
index:now index«mystep],max index) 
else: 
# 找到 码 字 ， 增 加 新 的 码 字 
if now_ index+mystep+l]<str_len: 
# 如 果 文 件 尾 部 正好 是 字典 中 的 码 字 ， 后 面 再 无 内 容 时 ， 这 部 分 将 不 会 被 执行 
max index-«-1 
codeword dictionary[my str[now index:now index«mystep-«1]]-max index 
if mystep«l»dict maxlen: 
dict maxlen-mystep-41 
print "find the Code word:$s add Code word:$s index:$d"£(my 
str[now index:now index«now len],my str[now index:now index«mystep«1],max index) 
# 压缩 后 的 结果 
cwdindex-cw, addr 
if cwdindex--0: 
cwlater-my str[now index:now index-«1] 
now index--1 
else: 
now index--mystep 
if now index»-str len: 
# 文件 已 经 读 取 完毕 ， 后 面 无 内 容 
cwlater-"" 
else: 
cwlater-my str[now index:now index-41] 
now index-«-1 
cw-(cwdindex,cwlater) 
compresseddata.append (cw) 
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print "An 生成 压缩 数据 头 部 " .decode ("utf8") 
# 生成 数据 压缩 大 小 格式 ,65535 为 电能 容纳 的 最 大 数据 
if len(codeword dictionary)<=65535: 
FLAG FMT-'H' 
FLAG, LEN-'2' 
else: 
FLAG FMT-'I' 
FLAG LEN-'4' 


# 压缩 数据 写 入 文件 
print "An 将 压缩 数据 写 入 压缩 文件 中 " .decode ("utf8")， 
lzv. file = open(compressfn, 'wb') 
try: 
# 写 入 压缩 数据 的 头 部 信息 
# 压缩 数据 长 度 
lzv len-len(compresseddata) 
lzv file.write(struct.pack('I',lzv len)) 
# 数据 解码 大 小 将 式 : 
lzv file.write(struct.pack('1sl1s',FLAG FMT,FLAG LEN)) 
# 写 入 压缩 数据 
for temp data in compresseddata: 
temp key,temp later-temp data 
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temp wdata-struct.pack(FLAG FMT-«'1s',temp key,temp later) 


lzv. file.write(temp wdata) 
print *.", 
finally: 
lzv file.close() 


# 解压 缩 数 据 
print "\n 读 入 压缩 数据 中 ".decode ("utf8")， 
my_compresseddata=[] 
my codeword dictionary={} 
lzv file - open(compressfn,'rb') 
try: 
# 读 入 压缩 数据 的 长 度 
lzv_len,=struct .unpack("I",lzv_file.read(4)) 


# 读 入 数据 解码 大 小 格式 


MY FLAG FMT,MY FLAG LEN-struct.unpack('1sl1s',lzv file.read(2)) 


d 读 入 压缩 数据 

tmp count-1 

while tmp count«-lzv len: 
# 读 入 压缩 数据 


temp data =lzv_file.read (int (MY_FLAG LEN)+1) 


temp_key,temp_later=struct .unpack(MY_FLAG_FMT+'1s',temp_data) 


my compresseddata.append((temp key,temp later)) 
tmp count4-1 
print *.*, 
print "\a 读 入 压缩 数据 成 功 " . decode ("ut £8") 
finally: 
lzv file.close( ) 
print "\n #ÆĦ ".decode("utf8"), 
# 解压 缩 
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uncompress_str=' 
# 解码 后 的 数据 
uncompressdata=[] 
my maxindex-0 
# 解码 ， 同 时 重 构 码 表 
for (cwkey,cwlaster) in my compresseddata: 
if cwkey-- 
my maxindex4-1 
my codeword dictionary [my maxindex]-cwlaster 
uncompressdata.append(cwlaster) 
else: 
my maxindex-«-1 


my codeword dictionary [my maxindex]-my codeword dictionary [cwkey]-«cwlaster 
uncompressdata.append(my codeword dictionary [cwkey]l) 
if cwlaster!-'VN0': 
uncompressdata.append(cwlaster) 
print ".*", 
uncompress str-uncompress str.join(uncompressdata) 
uncompressstr-uncompress str 
print "Wn 将 解压 结果 写 入 文件 中 ..\n".decode ("utf8") 
uncompress file- open('uncompress.txt','w') 
try: 
uncompress file.write(uncompressstr) 
print "Wn 解压 成 功 ， 已 解压 到 uncompress.txt 1 Wn".decode("utf8") 
finally: 
uncompress file.close() 


下 面 以 图 4-20 所 示 的 文本 为 例 进行 压缩 和 解压 缩 操作 。 
首先 ， 调 用 PyPy 运行 4-2.py， 该 程序 先进 行 压 缩 形 成 压缩 文件 ， 再 打开 压缩 文件 解压 


将 文件 还 原 为 uncompress.txt。 运 行 结果 如 下 : 


Code word: CP index:9938 


Code word:ython 


$ pypy 4-2.py python.txt python.lzv 


find the Code word: C add 


index:9939de word:ython add EUR iem ^s 
E n 5 R 
me à 


find the Code word: 与 Sa in pue Ru fi E 存 使 用 。 它 经 
f A TET 


add Code word: Rm ats ir um As PyPy. PyInstallerZ 36 
" Ta E. 
bh index:3940 ee 议 解 释 器 用 (语言 编写 ， 是 一 个 二 社 区 到 动 的 自由 款 伯 目前 由 Python 
find the Code word:ttp add KRES 














Code word:ttp: index:9941 ipo Sou. 面向 对 象 程序 设计 、 函 数 式 编程 、 面 向 侧面 的 程序 设计 、 泛 型 编程 多 种 编 
find the Code word:// add Python 的 。1989 年 的 圣 HF de 
p CITI nea 之 所 xe ga 
Code word:/le index:9942 Eh e rel anh 
lam e 
find the Code word:dit ada [fi * ython (3 
Code word:ditr index:9943 " 
l TE, noter nt + ac on; 
find the Code word:a. add t eR S ——— i e a 
Code word:a.o index:9944 HB AME PythonffE B TERES, RENY EMERSE. Prthott RRMA E 
生成 压缩 数据 头 部 
将 压缩 数据 写 入 压缩 文件 中 图 4-20 python.txt NÆ 
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将 解压 结果 写 入 文件 中 
解压 成 功 ， 已 解压 到 uncompress.txt ! 


然后 ， 查 看 一 下 解压 缩 效果 ， 可 见解 压缩 成 功 ， 绪 果 如 下 所 示 : 


$ cat uncompress.txt 


Python (英国 发 音 : /pa193n/ ; 美国 发 音 : /pai9a :n/) 是 一 种 面向 对 象 、 直 译 式 计算 机 
编程 语言 ， 具 有 近 二 十 年 的 发 展 历史 ， 成 熟 且 稳定 。 它 包含 了 一 组 完善 而 且 容 易 理解 的 标准 
库 ， 能 够 轻松 完成 很 多 常见 的 任务 。 它 的 语法 简洁 和 清晰 ， 尽 量 使 用 无 异 义 的 英语 单词 ， 与 
其 他 大 多 数 程序 设计 语言 使 用 大 括号 不 一 样 ， 它 使 用 缩 进 来 定义 语句 块 。 

最 后 ， 运 行 ls 命令 查看 算法 压缩 效果 ， 结 果 如 下 : 


-rw-rw-r-- 1 deep deep 5.0K Jul 1 20:55 5-2.py 
-rw-rw-r-- 1 deep deep 30K Jul 1 20:55 python.lzv 
-rw-rw-r-- 1 deep deep 36K Jul 1 20:57 python.txt 
-rw-rw-r-- 1 deep deep 36K Jul 1 20:55 uncompress.txt 


从 上 面 显示 的 结果 可 以 看 到 ， 未 压缩 前 为 36KB ， 压 缩 后 为 30KB ， 压 缩 效 果 不 太 明显 ， 
Lempel-Ziv 算法 对 于 大 的 文件 压缩 效果 更 好 ， 以 sqlite 3.8.5 的 全 部 源码 为 例 ， 对 它 进 行 压 
缩 ， 调 用 PyPy 再 次 运行 4-2.py 程序 : 


$ pypy 4-2.py sqglitesrc.txt sqglitesrc.lzv 


程序 运行 完毕 后 ， 查 看 压缩 效果 ， 结 果 如 下 : 


-rw-rw-r-- 1 deep deep 3.2M Jul 1 21:18 sqlitesrc.lzv 
-rw-rw-r-- 1 deep deep 5.2M Jul 1 21:16 sqlitesrc.txt 
-rw-rw-r-- 1 deep deep 5.2M Jul 1 21:18 uncompress.txt 


没 压 缩 前 为 5.2M， 压缩 后 为 3.2M， 压 缩 效 果 较 明显 。 


48 小 结 


目前 ， 机 器 学 习 主 要 依靠 算法 来 实现 ， 而 算法 依靠 程序 来 实现 ， 程 序 在 调试 完毕 后 ， 就 
需要 投入 到 实际 运行 阶段 ， 当 人 们 创造 性 地 将 “生产 环境 ”一 词 拓展 到 软件 工程 领域 后 ， 软 
件 运行 平台 的 定义 就 变 得 严谨 、 可 靠 和 安全 ， 它 特 指 软件 调试 完毕 并 正式 启用 后 实际 运行 的 
环境 。 软 件 生产 环境 中 最 常用 的 是 Windows Server 和 Linux/UNIX 两 种 。 本 章 首先 分 别 介绍 
了 这 两 种 生产 环境 下 的 基本 命令 、Shell 脚本 及 各 自 的 特性 ， 然 后 重点 介绍 了 虚拟 化 平台 的 搭 
建 与 管理 ， 最 后 讲解 了 Linux 环境 下 Vim 编辑 器 的 使 用 及 相关 软件 工具 的 配置 。 值 得 一 提 的 
是 ， 本 章 结尾 讲述 了 PyPy 编译 器 ，PyPy 实现 了 动态 编译 ， 提 供 了 JIT 编译 器 和 沙 盒 功能 ， 
运行 速度 比 CPython 要 快 很 多 ， 还 可 以 安全 地 运行 一 些 不 被 信任 的 代码 ， 对 于 Python 程序 来 
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说 ， 是 一 个 很 不 错 的 运 云 行 平台 。 


思考 题 


在 家 中 找 一 台 闲 置 不 用 的 PC， 将 硬盘 格式 化 ， 然 后 下 载 Citrix Xenserver 免费 版 和 
Windows Server 2008 R2 免费 试用 180 天 版 ,将 本 章 内容 亲 自 实践 一 次 ， 按 以 下 步骤 进行 操作 : 

C1) 安装 和 配置 好 Citrix Xenserver 与 XenCenter。 

(2) 建立 至 少 两 台 虚 拟 服务 器 ， 一 台 用 于 安装 Windows Server 2008 R2， 一 台 用 于 安装 
Citrix Xenserver, 

(3) 在 其 中 一 台 虚 拟 服 务 器 中 安装 CentOS 系统 。 

(4) 在 CentOS 系统 中 安装 好 RR、PyPy、NumPy 等 工具 软件 包 ， 安 装 完毕 后 ， 测 试 一 下 
各 软件 包 是 否 能 正常 运行 相关 的 程序 。 

( 5) 在 CentOS 系统 中 编写 各 种 Linux 命令 和 Shell 脚本 进行 测试 和 学 习 。 

(6) 在 CentOS 系统 中 打开 Vim 编辑 器 ， 编 辑 以 下 文件 内 容 ， 并 存盘 为 R.txt。 

R is a language and environment for statistical computing and graphics. It is a GNU project 
which is similar to the S language and environment which was developed at Bell Laboratories 
(formerly AT&T, now Lucent Technologies) by John Chambers and colleagues. R can be 
considered as a different implementation of S. There are some important differences, but much 
code written for S runs unaltered under R. 

R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical 
tests, time-series analysis, classification, clustering, ...) and graphical techniques, and is highly 
extensible. The S language is often the vehicle of choice for research in statistical methodology, 
and R provides an Open Source route to participation in that activity. 

(7) 在 另 一 台 虚 拟 服务 器 中 安装 Windows Server 2008 R2. 

(8) 在 Windows Server 2008 R2 中 运行 Windows PowerShell 脚本 ， 并 配置 好 R、Pypy、 
Python, NumPy 等 工具 软件 包 ， 并 测试 各 软件 包 是 否 能 正常 运行 相关 的 程序 。 
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o Y e ul 统计 分 析 实 战 篇 


在 终极 的 分 析 中 ， 一 切 知识 都 是 历史 ; 
在 抽象 的 意义 下 ， 一 切 科 学 都 是 数学 ; 在 理 


性 的 基础 上 ， 所 有 的 判断 都 是 统计 。 
—CR. 3$ 


*$6$996«92535356€090229022990222060222902552209258 
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统计 分 析 基 础 


统计 学 用 于 研究 对 象 的 数量 性 、 总 体 性 、 变 异性 ， 具体 说 来 ， 就 是 通过 各 种 统计 指标 和 
指标 体系 来 反映 对 象 总 体 的 规模 、 水 平 、 速 度 、 比 例 、 效 益 、 差 异 和 趋势 等 。 海 量 数据 分 析 
需要 一 个 科学 的 理论 基础 ， 统 计 学 是 理论 基础 之 一 ， 统 计 分 析 方 法 也 是 主要 的 数据 分 析 方 法 。 

机 器 学 习 涉 及 许多 统计 分 析 理 论 。 机 器 学 习 应 用 的 统计 分 析 强 调 实际 应 用 效果 ， 检 测 损 
失 函 数 即 描述 预测 与 实际 之 间 的 偏差 ;数据 分 析 领 域 也 以 统计 学 为 基础 ， 统 计 学 善于 对 数据 
建立 模型 ， 并 对 模型 做 出 假设 。 由 此 可 见 ， 无 论 是 在 机 器 学 习 方 面 还 是 数据 分 析 领 域 ， 统 计 
分 析 理 论 都 有 着 举足轻重 的 地 位 。 

本 章 将 以 及 语言 为 统计 分 析 计 算 工具 讲述 统计 分 析 基 础 ， 在 此 之 前 ， 请 各 位 读者 按照 第 
一 部 分 准备 篇 中 的 指导 ,将 R 语言 计算 平台 搭建 好 。 


5.1 数据 分 析 概 述 


随 着 数据 分 析 技 术 的 不 断 发 展 ， 数 据 分 析 的 定义 众说 纷 红 。 作 者 尝试 将 数据 分 析 定 义 
为 :“ 数 据 分 析 是 将 数据 转化 成 知识 ， 对 数据 加 以 详细 的 研究 和 概括 总 结 的 过 程 ， 它 用 适当 
的 统计 方法 对 收集 来 的 大 量 数据 进行 分 析 ， 发 现 数据 的 价值 ， 挖 掘 数据 的 表征 的 知识 。 

在 第 二 次 世界 大 战 中 ， 数 据 分 析 第 一 次 登 上 世界 舞台 。 在 Budiansky, Stephen 所 著 的 
( Blackett's War 》 中 ， 讲 述 了 一 个 由 数学 家 、 物 理学 家 组 成 的 团体 ， 通 过 对 数据 进行 收集 和 
分 析 ， 使 用 数据 引导 战争 的 故事 。 该 团队 运用 数据 分 析 技 术 对 付 纳粹 潜艇 舰队 ， 并 把 原始 雷 
达 系 统 收集 的 数据 与 实际 战争 结合 起 来 分 析 ， 从 而 使 海岸 司令 部 的 飞机 拥有 恰当 的 飞行 路 
线 ， 实 现 最 高 效 的 监视 。 同 时 他 们 还 证 明了 一 个 论断 : 在 一 个 15 ~ 24 ARR ARA P, AERE 
船 有 2.3% 被 击 沉 的 概率 ; 而 在 舰队 船 数 高 于 45 时 ， 被 击 沉 的 概率 只 有 1.1%。 
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随 着 社会 的 发 展 ， 数 据 库 已 经 深入 到 各 行 各 业 ， 成 为 了 社会 信息 记录 的 重要 载体 。 为 了 
解决 数据 的 查询 问题 、 在 数据 库 发 展 的 早期 ，SQL 语言 诞生 并 迅速 发 展 ， 目 前 它 仍然 活跃 在 
数据 库 领 域 。 近 年 来 ,，“ 大 数据 ”一 词 被 炒 得 很 热 ， 大 数据 已 被 用 于 承载 数据 相关 的 绝 大 部 
分 概念 ， 包 括 : 数据 海洋 、 社 交 媒体 分 析 、 下 一 代数 据 管理 能 力 、 实 时 数据 等 。 各 大 公司 已 
经 开始 理解 并 实践 探索 如 何 处 理 并 分 析 大 量 信 息 。 

无 限 风光 在 险峰 ， 只 有 登 上 山顶 ， 才 能 看 到 真正 的 风光 ， 既 然 如 此 ， 那 我 们 就 开始 攀登 
数据 分 析 这 座 “ 大 山 ” 吧 ! 


5.2 ”数学 基础 
统计 分 析 建 立 在 概率 与 统计 的 数学 基础 之 上 ， 在 此 ， 先 简要 介绍 一 下 相关 数学 公式 。 


1. 概率 

概率 是 数学 概率 论 的 基本 概念 。 设 随机 事件 的 样本 空间 为 8， 对 于 8 中 的 每 一 个 事件 
4， 都 有 实 函 数 P(4)， 满 足 : 

非 负 性 : P(4)20 

规范 性 : P(Q)-1 


可 加 性 : 对 ”个 两 两 互 扩 事 件 41,…, 如 有 : $ pear Ùa) 


任意 一 个 满足 上 述 条 件 的 函数 尸 都 可 以 作为 样本 空间 Q 的 概率 函数 ， 称 函数 值 PA) 为 
Q 中 事件 A 的 概率 。 

上 面 的 定义 严谨 但 不 易 理解 ， 通 俗 来 说 ， 概 率 是 一 个 0 到 1 之 间 的 实数 ， 是 对 随机 事件 
发 生 的 可 能 性 的 度量 。 人 们 有 时 候 会 问 : “明天 会 更 冷 吗 ?”、' 份 天 的 比赛 我 们 会 赢得 冠军 吗 ?” 
等 ， 他 们 是 在 关注 “天 气 变 冷 "、“ 比 赛 取 胜 ” 等 事件 发 生 的 机 会 。 在 数学 上 ， 这 些 事件 发 生 
的 机 会 可 用 一 个 数 来 表示 ， 称 为 概率 。 概 率 的 主要 公式 如 下 。 

设 事件 4 发 生 的 概率 (可 能 性 ) 为 Pd)， 它 不 发 生 的 概率 (可 能 性 ) 为 P(A)， 它 们 之 间 
的 关系 为 : 

P(4)=1-P( A ) 
n 个 事件 41,，…，4, 发 生 的 概率 为 : 
zlUJdj- Yra- Pos PAA 2 (AMAA) e CDI PAAA) 


sisjs 


条 件 概率 是 事件 4 在 另外 一 个 事件 号 已 经 发 生 条 件 下 的 发 生 概 率 。 条 件 概率 记 为 P 
(AIB), 读 作 “ 在 B 条 件 下 4 的 概率 ” 。 比 如 ,“ 如 果 明 天 更 冷 ， 需要 多 穿 一 件 外 套 吗 ?” 可 用 
条 件 概率 描述 为 : 假设 明天 天 气 更 冷 为 事件 8B， 多 穿 一 件 外 套 为 事件 4， 在 事件 8 (RAER) 
发 生 的 情况 下 ,事件 4 (EFIE) 发 生 的 概率 为 多 少 。 下 面 是 条 件 概 率 的 数学 定义 。 

在 同一 个 样本 空间 8 中 的 事件 或 者 子 集 4 与 ， 如 果 随 机 从 8 中选 出 的 一 个 元 素 属于 
BB， 那么 这 个 随机 选择 的 元 素 还 属于 A 的 概率 就 定义 为 在 B 的 前 提 下 A 的 条 件 概率 。 定 义 为 : 
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P(A|B) = |4 N BMIB| 
再 将 上 式 中 的 分 子 、 分 母 都 除 以 |8|， 得 到 


PUID)= 40B) m 


其 中 , P(AQB) 表示 联合 概率 , T8 AURUB 两 个 事件 共同 发 生 的 概率 ， 也 可 以 记 为 P(4,B) 或 PUB)。 
条 件 概率 在 贝 叶 斯 统计 中 也 称 为 后 验 概 率 ， 即 在 考虑 和 给 出 相关 证 据 或 数据 后 所 得 到 的 
条 件 概率 。 
现实 生活 中 ， 使 某 事件 发 生 的 前 提 (条 件 概率 中 的 “条 件 ”) 可 能 不 止 一 个 。 比 如 : 在 事 
件 B11，…，B, 发 生 的 前 提 下 ,事件 4 发 生 的 概率 是 多 少 ? 将 其 定义 如 下 : 
P(A)= 之 P(AB;)= 2 P(Bi) -+ P(A|B)) 
前 面 几 个 公式 都 是 根据 前 提 来 推测 事件 发 生 的 概率 的 ， 能 不 能 根据 事件 发 生 的 概率 推测 
其 前 提出 现 的 概率 呢 ? 当然 可 以 ， 实 质 上 ， 这 就 是 根据 结论 推测 原因 发 生 的 概率 。 比 如 ， 为 
什么 前 面 堵车 了 (事件 4)， 是 因为 发 生 了 交通 事故 (事件 B1) 还 是 路 上 车 辆 太 多 以 致 拥塞 
(事件 B)， 或 是 下 完 大 雨 道 路 状况 很 差 (事件 B3) ? 
下 面 的 公式 定义 了 事件 4 (结论 ) 发 生 了 ， 事 件 B (原因 ) 发 生 的 概率 ， 
P(BjA)- dum 中 PUPA |B) 
2 P(B)P(AIB) 
2. 概率 分 布 
概率 分 布 简称 分 布 ， 是 数学 概率 论 的 一 个 概念 ， 广义 上 指 随机 变量 的 概率 性 质 ， 狭 义 上 
是 指 随 机 变量 的 概率 分 布 函数 ， 使 用 最 为 普遍 的 是 狭义 上 的 定义 。 在 此 只 讲解 狭义 概率 分 布 。 
1) 随机 变量 分 布 。 随 机 变量 的 实质 是 函数 ， 其 数学 定义 为 : 设 函 数 半 对 于 概率 空间 S 
中 每 一 个 事件 e 都 有 定义 X(e)， 其 中 函数 值 为 实数 ， 同 时 ， 每 一 个 实数 + 都 有 一 个 事件 集合 
4, 与 其 对 应 ， 其 中 4,={e: X(e) < r}， 则 将 XY 称 作 随机 变量 。 
通俗 地 说 ， 一 个 随机 试验 可 能 结果 (基本 事件 ) 的 全 体 组 成 一 个 基本 空间 8， 随 机 变量 
了 是 定义 在 基本 空间 2 上 的 取 值 为 实数 的 函数 ， 即 基本 空间 2 中 每 一 个 点 ， 也 就 是 每 个 基本 
事件 都 有 实 轴 上 的 点 与 之 对 应 。 比 如 : 在 一 次 扔 硬币 事件 中 ， 将 获得 的 国徽 的 次 数 作为 随机 
变量 X， 则 了 可 以 取 两 个 值 ， 分 别 是 0 和 1。 
如 果 随 机 变量 的 取 值 是 有 限 的 或 是 以 下 可 数 无 穷尽 的 值 : 
X={x1, X2, X37] 
则 称 也 为 离散 随机 变量 。 
如 果 蕊 由 全 部 实数 或 者 由 一 部 分 区 间 组 成 : 
X={xla S x < b), - c «a«b« o 
则 称 子 为 连续 随机 变量 ， 连 续 随机 变量 的 值 是 不 可 数 并 无 穷尽 的 。 
设 P 为 概率 测度 ,为 随机 变量 ， 则 函数 F(x)=P(X < xX € R) 称 为 的 概率 分 布 函数 。 
将 随机 变量 区 间 的 下 限定 义 为 a， 上 限定 义 为 b»， 则 分 布 概率 P(a < X « b) 的 定义 为 : 
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pla «€ X < bP < b)-P(X < a) 
-F(b)-F(a) 
2) 离散 随机 变量 分 布 。 离 散 型 随机 变量 XX 的 所 有 取 值 与 其 对 应 的 概率 间 的 关系 ， 称 为 
离散 型 随机 变量 无 的 概率 分 布 ， 或 称 为 概率 函数 。 可 用 列表 法 表示 离散 随机 变量 的 分 布 ， 如 
dé 5-1 所 示 。 


表 5-1 离散 随机 变量 分 布 


TEE Ca Do e aT 
mnaman | o | a | | x | 


K 5-1 中 第 1 行 是 随机 变量 的 值 ， 第 2 行 是 每 个 值 出 现 的 概率 。 比 如 : 用 随机 变量 描 
述 投掷 一 枚 骨 子 点 数 的 概率 分 布 ， 用 随机 变量 天 表示 投掷 一 枚 明 子 出 现 的 点 数 ， 概 率 分 布 
pX=k)= i (k-1,2,-,6), TIRIK 5-2 所 示 的 列表 描述 。 


表 5-2 ” 般 子 点 数 的 概率 分 布 


BF x 


BCPGRU X HRE p 





离散 随机 变量 的 概率 分 布 具 有 以 下 两 个 性 质 : 
py (k-12,, n) 


2 pel 


k=l 

3) 0-1 i. AZAA E RA PALRP ERRAR ERS, BENE X RAA 
值 0 或 1，0-1 分 布 又 名 伯 努 利 分 布 或 者 两 点 分 布 ， 是 一 个 离散 型 概率 分 布 。 若 伯 努 利 试验 成 
功 ， 则 随机 变量 取 值 为 1， 否 则 随机 变量 取 值 为 0， 成 功 概率 为 p(0 < p < 1)， 失 败 概率 为 
q—1-p. 0-1 分 布 的 概率 质量 函数 (概率 质量 函数 的 值 就 是 离散 随机 变量 分 布 的 概率 ) 定义 如 下 : 

P(X-k)-p'(1-p)'*, k-0,1 

4) 二 项 分 布 。 二 项 分 布 即 重复 次 独立 的 伯 努 利 试验 ， 在 每 次 试验 中 只 有 两 种 可 能 的 
结果 ， 而 且 两 种 结果 发 生 与 否 互相 对 立 ， 并 且 相 互 独立 ， 与 其 他 各 次 试验 结果 无 关 。 每 次 试 
验 的 成 功 概率 为 p， 当 n=1 时， 二 项 分 布 就 是 0-1 分 布 。 

如 果 随 机 变量 服从 参数 为 n 和 pp 的 二 项 分 布 ， 可 记 为 X ~ B(n, p), 于 次 试验 正好 得 到 
大 次 成 功 的 概率 为 下 面 的 概率 质量 函数 : 

P(X-k)-C*, p'(1-p)"*, k=0,1, +, n 


n! 
HB, c= nD 


5 ) Poisson 分 布 。Poisson 分 布 又 名 泊 松 分 布 ， 主 要 描述 单位 时 间 内 随机 事件 发 生 的 次 数 
的 概率 分 布 。 比 如 : 某 服务 设施 在 一 定时 间 内 收 到 的 服务 请 求 的 次 数 、 电 话 交 换 机 接 到 呼叫 


ww ai bbt. com r1 HB BL BL O 


152 4» 第 三 部 分 统计 分 析 实 战 篇 


的 次 数 、 机 器 出 现 的 故障 次 数 等 。 泊 松 分 布 的 概率 质量 了 数 为 
P(X- =ke” mp k=0,1,2, 

若 针 服从 参数 为 4 的 泊 松 分 布 ， 记 为 ~ E ski X ~ PAo 

在 了 解 了 概率 基础 知识 后 ， 再 来 看 看 连续 型 随机 变量 。 对 于 随机 变量 X， 若 存在 非 负 可 积 
函数 PCO(C- oo <x<+ % )， 使 得 对 任意 实数 a,bla<b), 都 有 P(acX < by- | : po)dx, W X Juez 
型 随机 变量 ，P(a<X < b) 为 累积 分 布 函数 (概率 密度 函数 的 积分 ， 可 完整 描述 实 随机 变量 区 的 
概率 分 布 )， 函 数 po) 为 随机 变量 的 概率 密度 函数 , p(x) 的 图 像 为 概率 密度 曲线 ， 如 图 5-1 所 示 。 

概率 密度 函数 p(x) 有 如 下 性 质 : 

üp(x)zo0 

a [* “pC)dx=1 

定 积分 的 几何 意义 为 ， 对 于 一 个 给 定 的 正 实 值 函数 fx), ftx) 
在 一 个 实数 区 间 [aub] E ERRA? tdr 是 在 Oxy 坐标 平面 上 ， 
由 曲线 o S), HR aca, x=b 以 及 x 轴 围 成 的 曲 边 梯形 的 面积 值 ， 
如 图 5-2 中 的 阴影 部 分 。 

根据 图 5-2 所 示 的 定 积分 几何 意义 ，] pond 为 图 5-1 中 的 
阴影 部 分 ， 其 中 p(x) 为 概率 密度 函数 ， 而 Pla<X < b) |’ podr, 
因此 ， 连 续 随机 变量 艺 在 a 5j b 之 间 分 布 的 概率 为 概率 密度 函数 
和 f 图 5-2. SEBUMIS JUST RR S 

概率 质量 函数 和 概率 密度 函数 不 同 之 处 在 于 : 概率 质量 函数 
针对 离散 随机 变量 定义 ， 本 身 代表 随机 变量 在 确定 取 值 点 处 的 概率 ; 概率 密度 函数 针对 连续 
随机 变量 定义 ， 代 表 随机 变量 在 确定 取 值 点 附近 可 能 性 的 概率 ， 只 有 对 连续 随机 变量 的 概率 
密度 函数 在 某 区 间 内 进行 积分 (积分 后 得 到 累积 分 布 函数 ) 后 才能 完成 概率 的 计算 。 

6) 连续 型 均匀 分 布 。 连 续 型 随机 变量 在 等 长 度 的 每 个 空间 上 取 值 的 概率 都 相同 ， 则 称 
X OA [a,b] 上 的 均匀 分 布 , 记 作 元 ~ U[a,b]， 它 的 概率 密度 函数 为 : 


soe [rat srap 








0 ,其 他 
累积 分 布 函数 为 : 
0 ,x«a 
F(x)- x» a < x«b 
] xb 
连续 型 均匀 分 布 函数 的 期 望 值 和 中 值 等 于 区 间 [a,b] 上 的 中 间 点 : 
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方差 为 : 
Var[X]- gray 


7) 指数 分 布 。 指 数 分 布 可 用 来 表示 独立 随机 事件 发 生 的 时 间 间 隔 ， 比 如 旅客 进 机 场 的 
时 间 间 隔 等 。 它 的 概率 度 函数 随 着 取 值 的 变 大 而 指数 减 小 ， 定 义 如 下 : 


pe , X0 
me 其 他 
其 中 ,4 是 指 每 单位 时 间 发 生 该 事件 的 次 数 ，4>0。 


累积 分 布 函数 定义 为 : 
0 , x«0 
ro] le, ze 
8) 正 态 分 布 。 若 随机 变量 X 服 从 一 个 位 置 参 数 为 yy、 尺 度 参数 为 o 的 概率 分 布 ， 记 为 : 
X ~ Nu, 0)， 服 从 正 态 分 布 的 随机 变量 的 概率 规律 为 : 与 1 越 邻 近 的 值 的 概率 越 大 ， 离 1 越 
远 的 值 的 概率 越 小 ; o 越 小， 分 布 越 集中 在 4 附近 ，o 越 大 ， 分布 越 分 散 。 正 态 分 布 的 概率 
密度 函数 曲线 呈 钟 形 ， 又 经 常 被 称 为 钟 形 曲 线 ， 密 度 函 数 为 : 


a-u 
/=e ad ,- © «X«4 e 








累积 分 布 函 数 为 : 
F(x)- AL K i “人 dt 
正 态 分 布 密度 具有 如 下 性 质 : 


O 曲线 关于 直线 xu 对 称 。 ; 

O 当 x-uü HT, fo) 取得 最 大 值 万 了 7， 

OQ fo) 有 渐 近 线 y=0。 

Q fc) 有 两 个 拐点 i x6, 521671]. 

agger rael. 

3. 随机 变量 数字 特征 相关 公式 

分 布 函 数 完全 刻画 了 随机 变量 取 值 的 概率 规律 ， 因 此 ， 在 实践 中 ,我们 需要 知道 随机 变 
量 的 某 些 分 布 指标 ， 比 如 变量 的 分 布 趋势 、 分 布 均匀 程度 等 ， 以 便 分 析 随 机 变量 的 数字 特征 。 

1 ) 数学 期 望 。 数 学 期 望 反 映 了 随机 变量 的 平均 取 值 。 离 散 性 随机 变量 的 数学 期 望 是 试 
验 中 每 次 可 能 结果 的 概率 乘 以 其 结果 的 总 和 ， 离 散 型 随机 变量 元 的 数学 期 望 为 : 


E[X]- x Xp 





连续 型 随机 变量 了 的 数学 期 望 为 : 
ELX- [^ ~ xfoodx 
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2 ) 方差 。 方差 刻画 了 随机 变量 对 它 的 均值 的 偏离 程度 ， 如 果 E[X] 是 随机 变量 的 期 户 
值 (平均 数 j=E[ 多 )， 则 随机 变量 或 者 分 布 的 方差 为 : 
Var(X)-E[QC-4)'] 
3) 协 方差 。 协 方差 表示 的 是 两 个 变量 的 总 体 的 误差 ， 如 果 两 个 变量 的 变化 趋势 一 致 ， 
也 就 是 说 ， 如 果 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 也 大 于 自身 的 期 望 值 ， 那 么 两 个 变量 
之 间 的 协 方差 就 是 正 值 。 如 果 两 个 变量 的 变化 趋势 相反 ， 即 其 中 一 个 大 于 自身 的 期 望 值 ， 另 
外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 两 个 变量 之 间 的 协 方差 就 是 负 值 。 如 果 X 与 7 是 统计 独立 
Hj, 那么 二 者 之 间 的 协 方差 就 是 0。 
期 望 值 分 别 为 E(X)-u 与 E(Y)-v 的 两 个 实数 随机 变量 下 与 了 之 间 的 协 方差 ， 定 义 为 : 
cov(X, Y)-E[(X-u)(Y-v)] 
Hop E EWA, CERRY: 
cov(X, Y)-E(XY)-uv 


5.3 回归 分 析 


在 进行 回归 分 析 时 ， 通 常 利用 数理 统计 中 的 回归 方法 ， 确 定 两 种 或 两 种 以 上 变量 间 相 互 
依赖 的 定量 关系 。 


5.3.1 ” 单 变量 线性 回归 


在 第 3 章 中 曾 谈 到 数据 的 线性 回归 ， 可 能 会 出 现 一 种 情况 ， 所 有 的 数据 点 都 准确 地 
落 在 了 回归 线 上 。 但 在 现实 中 ， 很 
难 有 如 此 精确 的 模型 ， 比 如 有 两 个 变 
量 x 和 y， 其中, x-[5,7,9,11,1620], y= 
[1,2,3,4,7,9]， 现 在 要 在 x 与 y 之 间 建 立 | 
回归 模型 ， 该 如 何 实现 ? 

先 用 R 语言 构造 数据 点 。 

> y«-c(5,7,9,11,16,20) 

$ xc-GUl,2,3,4,7,9) 

在 建立 回归 线 之 前 ， 先 通过 RR 语 
A H plot 函数 绘制 这 些 点 的 位 置 ， 观 
察 分 布 规律 ， 如 图 5-3 所 示 。 


= plot(x,y) 


图 5-3 称 为 散 点 图 ， 能 清晰 地 在 坐 
标 系 中 查看 数据 点 位 置 ， 横 轴 为 x， 纵 


轴 为 yo 图 5-3 op 
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从 散 点 图 上 可 以 看 出 x 和 ?之 间 存 在 线性 关系 ， 可 以 表示 为 产 Ee+b 这 种 一 次 函数 的 模 
型 。 不 过 想 要 画 一 条 直线 完全 穿 过 这 些 点 是 不 可 能 的 ， 但 能 保证 这 些 点 到 这 条 直线 的 距离 最 
小 ， 这 个 距离 就 是 残 差 。 残 差 是 观测 值 与 预测 值 之 间 的 差 。 下 面 来 具体 看 一 下 。 

首先 ， 通 过 lsfit 函数 计算 回归 直线 方程 的 斜率 和 截 距 以 及 残 差 。 代 码 如 下 : 


> lsfit(x,y) 


$coefficients 
Intercept X 
3.338028 1.845070 
$residuals 


[1] -0.18309859 -0.02816901 20.12676056 (0.28169014 -0.25352113  0.05633803 


上 面 代码 中 出 现 的 residuals 表示 残 差 ， 残 差分 别 反映 了 这 些 点 与 直线 的 差异 ， 残 差 越 小 
越 好 。 残 差 直接 反映 了 数据 点 到 回归 直线 的 距离 ，-0.183 098 59, —0.028 169 01, 0.126 760 56、 
0.281 690 14, —0.253 521 13, 0.056 338 03 分 别 是 当 x 值 为 [1,2,3,4,7,9] 时 ， 用 y=1.845 070x+3.338 028 
回归 方程 求 得 的 y 值 与 实际 y 值 [5,7,9,11,16,20] 的 差额 。 残 差 e; 的 计算 公式 为 : 

eypi(i=1,2,…,n) 

其 中 ，y; 表示 实际 值 ，5 为 按 回 归 方 程 预 测 的 值 。 

例如 ,将 x=2 代入 该 例 中 的 回归 方程 ， 即 为 y=1.845 070 x 2+3.338 028， 计 算 可 得 到 y 
的 预测 值 ， 然 后 得 到 残 差 ， 如 下 所 示 : 

XER y fü — 预测 ff — 1.845 070 x 243.338 028-7 = -0.028 169 01 

然后 ， 绘 制 散 点 图 及 回归 线 。 命 令 如 下 : 


»abline(lsfit(x,y)) 


刚才 将 2 代入 回归 方程 后 ， 计 算 1.845 070 x 243.338 028-7， 得 到 残 差 仅 为 -0.028 169 01, 
在 图 5-4 中 找到 回归 线 上 x-2 BF y WE, AG, REREKAI y 值 几乎 贴近 回归 线 。 再 看 =1、 
3、4、7、9 时 ， 回 归 线 对 应 的 y 值 都 比较 贴近 回归 线 ， 这 些 数据 点 紧 靠 在 回归 线 周 围 ， 显 然 
回归 效果 不 错 。 

残 差 不 应 该 有 某 种 趋势 ， 若 残 差 中 出 现 一 种 明显 的 趋势 ， 则 意味 着 模型 不 适合 。 如 图 5-4 
所 示 的 残 差 分 布 较 均 匀 ， 没有 明显 的 趋势 显示 大 量 数据 点 偏离 了 回归 线 。 

事实 上 ， 也 可 以 使 用 Im 函数 进行 更 详细 的 回归 分 析 。 
代码 如 下 : ai 
x«—9(1,2,3,;4,7,9) 
y«-c(5,7,9,11,16,20) 


lm(y-x)-»xy ES 
summary (xy) 


MM M M 


Calls 
lm(formula = y ~ x) 


2 4 6 8 
Residuals: X 


; 2 3 4 5 8 图 5-4” 散 点 图 及 回归 线 
ww ai bbt. com [10 ED] O UO] D] 


156 “ss* 第 三 部 分 统计 分 析 实 战 篇 


-0.18310 -0.02817 0.12676 0.28169 -0.25352 0.05634 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 3.33803 0.16665 20.03 3.67e-05 *** 
x 1.84507 0.03227 57.17 5.608-07 *** 


signif. codes: O '***' 0.001 '**' 0.01 '*' 0.05 *.' 0.1 *' 1 


Residual standard error: 0.222 on 4 degrees of freedom 


Multiple R-squared: 0.9988, Adjusted R-squared: 0.9985 
F-statistic: 3269 on 1 and 4 DF, p-value: 5.604e-07 
»plot (x,y) 


»abline( lm(y-x)) 


在 上 述 代码 中 ，Coefficients 栏 的 内 容 如 下 。 

O Estimate; 斜率 与 截 距 的 估计 值 。 

O Std. Error: 斜率 与 截 距 的 估计 标准 差 。 

口 tvalue: 斜率 与 截 距 的 假设 检验 的 t+ 值 。 

口 Pr(>|t): 与 显著 性 水 平 比较 ， 决 定 是 否 接受 该 假设 检验 。 

在 Coefficients 每 行 的 最 后 一 列 有 星 号 ， 这 个 星 号 的 含义 表示 线性 关系 是 否 显 著 : * 的 数 
量 是 0 ~ 3, * 的 数量 越 多 则 线性 关系 越 显 著 。 本 例 中 , Coefficients 栏 的 Pr(>|tj) 字段 ( 3.67e- 
05 以 及 5.60e-07 ) 后 标注 *** ， 说 明 x 与 ?之 间 的 线性 关系 很 强 。 


5.3.2 ”多 元 线性 回归 
多 元 性 回归 可 建立 多 个 自 变量 和 应 变量 之 间 的 关系 ， 其 回归 模型 方程 一 般 为 : 


ycbotbixitboxzt: t byxyte 
其 中 , ?为 因 变 量 ，z o5, x 为 自 变 量 ，bo HABO, bi, b,,…, xi 为 回归 系数 。 
在 进行 多 元 线性 回归 分 析 时 ， 可 使 用 lm 函数 ， 在 上 节 例 子 的 基础 上 增加 一 个 自 变量 
x2=[3,4,5,6,8,10]， 来 看 看 会 有 什么 效果 。 代 码 如 下 : 


 y£-60(5,7,9,11,15,20) 

ce x«-6(1,2,3,4,7,9) 

> x2«-0(6,8,10,12,16,20) 
> lm(y-x«x2)-»xy2 

> summary (xy2) 

Call: 

lm(formula = y ~ x + x2) 


Residuals: 
1. 2 3 4 B 6 
-7.495e-16 239.195e-16 4.172e-17 -2.117e-16 1.839e-16 -1.839e-16 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.000e«00 3.787e-15 2.640e«14 «2e-16 *** 
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x 1.000e«00 1.359e-15 7.357e414 . «2e-16 *** 
x2 5.000e-01 8.019e-16 6.236e+14 | «2e-16 *** 
Signif. codes: Q '****' 9.001 *'***' 9.01 '*" 0.05 *." Q.1 *' 1 


Residual standard error: 7.121e-16 on 3 degrees of freedom 
Multiple R-squared: m Adjusted R-squared: 4d 
F-statistic: 1.591e«32 on 2 and 3 DF, p-value: < 2.2e-16 


通过 上 述 回归 分 析 ， 得 出 该 回归 方程 为 y=x+0.5 x x2*1, Std. Error, t value, Pr(»jtl) 以 
及 线性 相关 程度 等 指标 的 含义 同 单 变量 线性 回归 类 似 。 


5.3.3” 非 线性 回归 


非 线 性 回归 模型 较 多 ， 其 中 应 用 得 较 多 的 有 以 下 模型 : 
1 ) 多 项 式 模型 : 
E E 


2) 指数 模型 ; 
y-ae'"e 
3) FRROK : 
y=axi’ xe 
4) 成 长 曲线 模 : 


y-l/(fe-fie ^e) 
实际 应 用 中 ， 除 上 述 模型 外 ， 还 有 很 多 非 线 性 回归 模型 ， 但 无 论 是 哪 种 非 线 性 回归 模 
型 ， 最 后 都 可 以 通过 变量 变换 转化 为 线性 模型 ， 从 而 用 最 小 二 乘法 进行 回归 分 析 。 下 面 以 
Ypo pie” +e 模型 为 例 讲解 非 线性 回归 的 方法 。 
1) 准备 回归 分 析 用 数据 (假设 已 预先 知道 回归 方程 ， 通 过 回归 方程 精确 计算 值 )， 


»x«-0(1,2,3,4,7,8,9) 
>y <- 100 + 10 * exp(x / 2) + rnorm(x) 


2) 使 用 RR 语言 的 nls 函数 ， 应 用 最 小 二 乘法 原理 ， 实 现 非 线性 回归 分 析 。 
»nlmod <- nls(y ~ Const + A * exp(B * x)) 
3) 使 用 summary 函数 分 析 拟 合 结果 。 
> summary (nlmod) 
Formula: y ~ Const + A * exp(B * x) 
Parameters: 
Estimate Std. Error t value Pr(>|t|) 
Const 1.001e«02 28.377e-01 119.4 2.95e-08 *** 


A 1.006e«01 1.759e-01 57.2 5.596-07 *** 
B 4.995e-01 1.925e-03 2589.5 1.320-09 *** 
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Signif. codes: O '***' 0.001 “=” 0.01 CEA ge tun o t3 
Residual standard error: 1.1 on 4 degrees of freedom 


Number of iterations to convergence: 8 
Achieved convergence tolerance: 4.887e-07 


> 


其 中 ， 在 Parameters 栏 ， 对 方程 涉及 的 以 下 3 个 参数 进行 了 预测 : 
fo-Const-1.001e--02 
Bi=4=1.006e+01 
b=B=4.995e-01 

将 以 上 参数 与 程序 中 yy 值 的 生成 规则 进行 对 比 ， 可 以 看 见 ， 拟 合 效果 还 是 不 错 的 。 

前 面 为 解释 非 线 性 回归 过 程 ， 将 x 代入 参数 确定 的 非 线性 回归 方程 计算 y 值 ， 然 后 ， 依 
据 x 和 yy 推出 非 线性 回归 方程 的 参数 。 但 实践 应 用 中 ， 往 往 需 要 依据 一 组 x 值 和 y 值 ， 推 导 
非 线 性 方程 的 参数 ， 因 此 ， 尝 试 通过 morm 函数 产生 较 小 的 随机 数 ， 加 在 精确 计算 的 y 值 上 ， 
这 样 计算 后 形成 的 非 线 性 回归 模型 拥有 一 定 的 残 差 ， 较 接近 真实 环境 。 


>y <- 100 + 10 * exp(x / 2) + rnorm(x) 
4) 绘制 拟 合 效果 图 。 代 码 如 下 : 


»plot(x,y, main = "nls(o)") 

»curve(100 + 10 * exp(x / 2), col = 4, add = TRUE) 

»lines(x, predict(nlmod), col = 2,type-'b') 

如 图 5-5 所 示 为 拟 合 效 果 图 ， 显 示 出 拟 合 效果 不 错 。 其 中 ， 偏 上 的 线 为 预测 的 回归 线 ， 
偏 下 的 线 为 实际 方程 。 回 归 在 [4,7] 的 区 间 内 拟 合 效果 较 差 ， 这 是 样本 数据 太 少 的 原因 ， 因 
为 样本 数据 仅 有 9 个 。 

参与 拟 合 的 样本 数据 量 决定 了 拟 合 效果 的 好 坏 。 可 以 加 大 自 变量 的 数量 ， 重 新 应 用 nl 
函数 进行 拟 合 ， 来 看 看 效果 如 何 。 代 人 码 如 下 : : 

>x<-seq(1,10,0.1) 

»y «- 100 + 10 * exp(x / 2) # rnorm(x) 

»nlmod <- nls(y - Const + A * exp(B * x)) 

»plot(x,y, main = "nls(o)") 

»curve(100 + 10 * exp(x / 2), eoi = 4, add = TRUE) 

»lines(x, predict(nlmod), col = 2) 

如 图 5-6 所 示 是 相应 的 效果 图 ， 从 中 可 以 看 出 ， 回 归 线 与 实际 方程 线 很 接近 。 

不 过 ， 图 5-6 所 示 的 回归 效果 仍 存在 一 个 问题 ， 就 是 样本 过 于 集中 在 回归 线 上 了 ， 为 使 
回归 分 析 更 接近 真实 应 用 环境 ， 需 要 继续 加 大 随机 数 的 范围 ， 增 加 非 线性 回归 的 残 差 ， 使 样 
本 点 散布 在 回归 线 周 于 。 
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图 5-5 拟 合 效果 图 


»x«-seq(1,10,0.1) 

sy «- 100 + 10 * exp(x / 2) + rnorm 
(x)*100 

»nlmod <- nls(y ~ Const + A * exp(B * 
x)) 

»plot(x,y, main = "nls(o)") 

»curve(100 + 10 * exp(x / 2), col = 4, 
add - TRUE) 

»lines(x, predict(nlmod), col - 2) 


从 图 5-7 可 以 看 出 ， 样 本 点 虽然 没有 集中 
在 回归 线 上 ， 而 是 散落 在 回归 线 周围 的 区 域 ， 
产生 的 残 差 较 大 ， 但 样本 点 的 整体 走向 与 回归 
线 一 致 ， 此 外 ， 回 归 线 与 实际 方程 这 两 条 线 几 
乎 重合 ,说 明 回归 分 析 较 准确 地 预测 出 回归 方 
程 的 各 个 参数 。 因 此 ， 从 整体 上 观察 ， 拟 合 效 
果 不 错 ， 回 归 模 型 适当 。 


5.4 数据 分 析 基 础 
5.4.1 区 间 频 率 分 布 
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nls(o) 














图 5-6 ” 非 线 性 回归 效果 图 


nls(o) 

















图 5-7 接近 真实 环境 的 非 线 性 回归 


下 面 是 美国 地 震 台 网 公布 的 全 球 2013 年 5 月 20 日 22 点 到 24 点 发 生 的 所 有 地 震 的 震级 。 


时 间 震级 
2013-05-20T23:57:12.000--00:00 1.6 
2013-05-20T23:57:12.000--00:00 0.9 
2013-05-20T23:52:59.000--00:00 2.1 
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4. 


2013-05-20T23:49:15.100--00:00 22 
2013-05-20T23:46:36.000--00:00 2.3 
2013-05-20T23:44:07.000--00:00 1.2 
2013-05-20T23:38:17.000--00:00 1:3. 
2013-05-20T23:34:12.400--00:00 1.6 
2013-05-20T23:33:43.440--00:00 4.7 
2013-05-20T23:25:20.500--00:00 1:2 
2013-05-20123:23:35.100--00:00 0.9 
2013-05-20T23:07:34.960--00:00 4.7 
2013-05-20T23:06:42.800--00:00 0.6 
2013-05-20T23:01:25.480--00:00 53 
2013-05-20T22:59:58.000+00:00 I 
2013-05-20T22:51:47.120--00:00 4.8 
2013-05-20T22:48:40.570--00:00 4 

2013-05-20T22:48:18.350--00:00 4.2 
2013-05-20T22:36:27.310--00:00 4.6 
2013-05-20T22:13:36.000--00:00 1.3 
2013-05-20T22:13:09.000--00:00 2.1 
2013-05-20T22:10:47.0004-00:00 1.5 
2013-05-20T22:09:33.600--00:00 3 


下 面 就 以 上 面 的 数据 为 例 ， 来 讲述 区 间 频 率 分 布 。 现 在 的 任务 是 完成 地 震 震级 分 析 。 
1 ) 将 地 震 震 级 数据 放 入 一 个 向 量 中 。 代 码 如 下 : 


»mag«-c(1.6,0.9,2.1,2.2,2.3,1.7,1.3,1.6,4.7,1.2,0.9,4.7,0.56,5.3,1.1,4.8,4,4.2, 
8.,1.3;,2.1,1.5,3) 

> mag 

[E] Ae 

[19] 4. 


2) 使 用 cut 函数 将 震级 分 成 5 个 区 间 ， 并 建立 因子 。 代 码 如 下 : 


»factor(cut (mag,5)) 
[1] (1.,54,2.48]  Á10.595,1.54] 1[1.54,2.48] (1.54,2.48] (1.54,2.48] 
[6] (1.54,2.48] 4(0.595,1.54] (1.54,2.48] (4.36,5.3] (0.595,1.54] 
[11] £0.595,1.54] (4.36,5.3] (0.595,1.54] (4.36,5.3] (0.595,1,.54] 
[16] (4.36,5.3] (3.42,4.36] (3.42,4.36] (4.36,5.3] (0.595,1.54] 
[21] (1.54,2.48] (0.595,1.54] (2.48,3.42] 
Levels: (0.595,1.54] (1.54,2.48] (2.48,3.42] (3.42,4.36] (4.36,5.3] 


3) 统计 因子 频率 。 代 码 如 下 : 


>factor (cut (mag,5))-»magfactor 
> table (magfactor) 
magfactor 


6 0.9 2.1. 2.2 2.3 1.7 1.3 1.6 4.7 1.2 0.9 4.7 0.6 5.3 1.1 4.8 4.0 4.2 
56 1,9 2.1 1.5 3.0 
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(0.595,1.54] (1-547248) 4(2.48,3.42]  (3.42,4.36] (4.36,5.3] 
8 J 1 2 5 


可 以 看 出 2013 年 5 月 20 日 22 点 到 24 点 期 间 ， 全 球 发 生 的 地 震 在 (0.595,1.54] 内 有 8 
起 ,在 (1.54,2.48] 内 有 7 起 等 。 
4) 绘制 直方 图 。 在 了 及 语言 中 ， 可 使 用 hist 函数 绘制 直方 图 。 


> hist (mag,breaks-5) 


绘制 结果 如 图 5-8 所 示 。 


5.4.2 数据 直方 图 |: Histogram of mag 
直方 图 又 称 柱状 图 、 质 量 分 布 图 ， 
是 一 种 对 数据 分 布 情况 的 图 形 表示 ， 
由 一 系列 高 度 不 等 的 纵向 条 纹 或 线段 
表示 数据 分 布 的 情况 ， 它 根据 从 生产 


过 程 中 收集 来 的 质量 数据 分 布 情况 ， | 有 
组 成 以 组 距 为 底 边 、 以 频数 为 高 度 的 “||” 
一 系列 连接 起 来 的 直方 型 矩形 图 。 


地 震 数据 是 一 种 次 数 直方 图 ， 是 
由 若干 宽 度 相 等 、 高 度 不 一 的 直方 条 
紧密 排列 在 同一 基线 上 构成 的 图 形 ， 
其 中 基线 上 每 个 区 间 代 表 了 一 段 震 级 ， 
高 度 代 表 了 这 段 震级 发 生地 震 的 次 数 asa Fsm 
(频率 )。 

1) 用 RR 语言 的 read.table 函数 读 取 地 震 震 级 的 文件 ( read.table 方法 可 读 取 文件 ， 生 成 
list 组 件 类 型 的 数据 集 ， 并 且 ， 通 过 指定 header=TRUE 参数 ， 可 将 文件 头 作 为 字段 变量 名 )。 


> read.table("eqweek.csv",header-TRUE,sep-",")-»earthquake 


2) 显示 读 取 的 地 震 数 据 (2013.5.14 ~ 2013.5.20 )， 验 证 读 取 内 容 是 否 完 整 。 











> earthquake DateTime.Latitude.Longitude.Depth.Magnitude.MagType. 
NbStations.Gap.Distance.RMS.Source.EventID.Version 

1 2013-05-20T7T23:57:12.000«00:00,63.45,-148.291,5.5,1.6,M1,, ,, 
0.8,ak,ak10720946,1.3691E«12 

2 2013-05-20T23:52:59.000«00:00,61.337,-152.069,81.4,2.1,M1, , , , 
1.15,ak,ak10720941,1.36909E412 

3 2013-05-20T23:49:15.100400:00,19.99,-155.426,38.2,2.2,Md,,133,0.1,0. 
11,hv,hv60501711,1.3691E«12 

4 2013-05-20T723:46:36.000«400:00,60.498,-142.974,4.2,2.3,M1, ,, , 


0.43,ak,ak10720934,1.36909E«12 


3) 绘制 数据 直方 图 ， 观 察 从 2013 年 5 月 14 日 至 2013 年 5 月 20 日 这 周 内 全 球 地 震 震 
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级 的 分 布 情况 。 代 码 如 下 : 
> hist(earthquake$Magnitude, 5) 


生成 的 直方 图 如 图 5-9 所 示 。 其 中 
横 轴 是 震级 ， 纵 轴 是 频率 分 析 。 通 过 Histogram of earthquake$Magnitude 
观察 可 得 出 结论 : 震级 在 1 ~ 2 级 的 
地 震 发 生 频 率 最 高 ， 因 为 在 x 为 1 ~ 2 
时 ， 长 方形 柱 体 最 高 ; 2 ~ 3 级 的 柱 体 
高 度 仅 次 于 1 ~ 2 级 ， 发 生 频 率 排名 第 
二 ; 发 生 频 率 最 小 的 是 6 ~ 7 级 的 地 震 ， 
柱 体 高 度 很 小 。 总 体 来 说 ，1 ~ 3 级 和 
4 ~ 5 级 的 地 震 发 生 较 频繁 。 

数据 直方 图 能 直观 地 说 明 数 据 在 
每 个 区 间 的 分 布 频率 ， 但 如 果 需 要 精 
确 的 分 布 频率 ， 则 需要 使 用 R 语言 的 
因子 对 象 。 先 通过 cut 函数 将 数据 分 
组 ， 然 后 通过 factor) 函数 生成 因子 对 
象 ， 最 后 使 用 table 函数 分 析 频 率 。 代 
码 如 下 : 图 5-9 震级 分 布 直方 图 
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> table(factor(cut(earthquake$Magnitude,5))) 


(0;995,2:..1] (2;1;3.2] (3.2,4.3] (4.3;544] (5.4.6.5 ] 
693 200 46 126 10 
观察 上 述 结果 的 最 后 两 行 ， 每 个 区 间 的 震级 频率 一 目 了 然 ，(0.995,2.1] 区 间 的 震级 频率 
是 693 次 ，(2.1,3.2] 区 间 的 震级 频率 是 200 次 等 。 


5.4.3 ”数据 散 点 图 


数据 散 点 图 是 指数 据点 在 直角 坐标 系 平面 上 的 分 布 图 ， 通 过 直接 观察 图 形 辨 认 某 现象 的 
测量 值 与 可 能 原因 因素 之 间 的 关系 ， 具 有 快捷 、 易 于 交流 和 易于 理解 的 特点 。 

数据 散 点 图 表示 因 变 量 随 自 变量 而 变化 的 大 致 趋势 ， 将 序列 显示 为 一 组 点 ， 值 由 点 在 图 
表 中 的 位 置 表示 ， 类 别 由 图 表 中 的 不 同 标记 表示 。 通 常用 垂直 轴 表 示 现 象 值 Y， 用 水 平 轴 表 
示 可 能 有 关系 的 原因 因素 XX， 通 过 对 其 观察 分 析 ， 来 判断 两 个 变数 之 间 的 相关 关系 。 此 外 ， 
依据 散 点 图 可 选择 函数 对 数据 点 进行 拟 合 ， 建 立 回 归 模 型 。 

下 面 继续 以 全 球 一 周 地 震 数 据 为 例 ， 来 讲解 数据 散 点 图 。 

1) 将 变量 放 到 搜索 路 径 上 。 代 码 如 下 : 


> attach (earthquake) 
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2) 分 析 地 震 震 深 。 代 码 如 下 : 


> summary (Depth) 
Min. lst Qu. Median Mean 3rd Qu. Max. NA's 
0.10 5.80 T2 5 30.82 38.00 630.70 39 


在 上 述 结果 中 ，Min 表示 地 震 震 深 的 最 小 值 ，Max 表示 最 大 值 ，Median 为 中 位 数 ，Mean 
为 平均 值 。 我 们 试 着 从 下 面 的 散 点 图 中 分 析 一 下 地 震 震 深 与 震级 的 关系 ， 如 图 5-10 所 示 。 

在 图 5-10 中 ，Depth 是 震 深 Magnitude 是 震级 ， 从 表面 上 看 一 周 中 Depth 和 Magnitude 
之 间 没 有 关系 ， 但 仔细 观察 这 个 图 ， 可 发 现 一 个 有 趣 的 结果 : 在 这 一 周 里 当 震 深 超过 300 后 ， 
震级 都 接近 5 或 在 5 以 上 ， 而 在 300 以 内 时 ， 震 级 并 不 确定 。 

3) 对 震 深 的 直方 图 进行 分 析 。 先 来 绘制 相关 直方 图 ， 代 码 如 下 : 


>hist (Depth) 


绘制 的 图 形 如 图 5-11 所 示 。 





Histogram of Depth 
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图 5-10 震 深 与 震级 关系 的 散 点 图 图 5-11 震 深 的 直方 图 


观察 图 5-11 可 得 出 结论 : 这 个 星期 内 发 生 的 绝 大 部 分 地 震 的 震 深 在 100 以 内 ， 这 个 区 间 
的 代表 频率 的 柱 体高 度 最 高 ， 而 发 生 最 少 的 350 ~ 550 段 和 250 ~ 300 段 ， 这 两 个 区 间 的 柱 
体 几乎 贴近 也 轴 ， 高 度 很 小 。 

4) 分 析 带 数据 点 的 震级 直方 图 。 为 提高 直方 图 的 表示 能 力 ， 有 时 需要 在 直方 图 中 显示 
实际 的 数据 点 ， 通 过 观察 这 些 数据 点 的 数量 ， 可 分 析 数 据点 在 每 个 区 间 的 分 布 密集 程度 ， 可 
通过 R 语言 的 rug 函数 绘制 数据 点 。 代 码 如 下 : 


> hist (Magnitude) 
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> rug (Magnitude) 

绘制 出 的 图 形 如 图 5-12 所 示 。 

仔细 观察 图 5-12 能 看 出 : 在 3 ~ 4 震级 区 域内 ， 数 据点 分 布 并 不 均匀 ， 在 靠近 3 的 区 域 
内 ， 数 据 更 为 密集 ， 数 据点 集中 分 布 在 偏向 于 3 的 区 域 ; 此 外 , TES ~ 6 级 震级 区 域 也 出 现 
类 似 现象 ， 数 据点 偏向 于 5， 这 说 明 3 ~ 4 级 或 5 ~ 6 级 震级 范围 内 ， 大 部 分 地 震 的 震级 不 
是 非常 大 ， 偏 向 于 3 或 5。 

这 些 只 是 根据 一 个 星期 的 数据 进行 分 析 得 到 的 结果 ， 不 一 定 就 代表 真正 的 答案 。 答 案 要 
通过 分 析 大 量 数据 以 及 数据 各 个 指标 关系 ， 同 时 结合 地 球 物理 知识 的 研究 才能 得 出 。 

由 于 图 形 直观 性 很 强 ， 浅 显 且 易于 理解 ， 因 此 在 数据 分 析 中 ， 经 常 需 要 绘制 图 表 和 直 
线 。 前 面 已 经 讲解 过 绘图 的 方法 ， 在 此 补充 一 下 画 线 方法 ,在 及 语言 中 使 用 lines 函数 完成 
绘制 直线 。 比 如 要 绘制 一 个 (10,40), (20,50), (30,60) 的 散 点 图 ， 并 将 点 连 成 线 ， 可 如 下 
编写 代码 : 


> plot(c(10,20,30),c(40,50,60)) 
> lines(c(10,20,30),c(40,50,60)) 


绘制 出 的 散 点 及 直线 如 图 5-13 所 示 。 





Histogram of Magnitude 
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图 5-12 带 数 据点 的 震级 直方 图 图 5-13 散 点 及 直线 图 





544 五 分 位 数 


分 位 数 是 描述 数据 位 置 的 一 种 方法 ， 它 将 一 个 随机 变量 的 分 布 范围 分 为 几 个 等 份 的 数值 
点 。 分 位 数 法 被 用 来 识别 某 临 界 值 ， 一 般 情况 下 可 使 用 分 位 数 (或 分 位 点 ) 描述 小 于 等 于 这 个 
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临界 值 的 观测 值 数量 占 整 个 数据 中 的 某 个 具体 比率 〈 小 于 等 于 该 值 的 数据 为 一 给 定 的 比率 )。 

常用 的 分 位 数 有 中 位 数 、 四 分 位 数 、 五 分 位 数 、 十 分 位 数 、 百 分 位 数 等 ， 其 中 ， 中 位 数 
将 数据 分 布 范围 分 成 了 相等 的 两 个 部 分 。 此 外 ,我们 还 能 将 数据 分 布 范 围 分 成 更 小 尺寸 的 分 
割 线 ， 四 分 位 数 将 一 个 分 布 分 成 4 等 份 ， 而 五 分 位 数 将 其 分 成 5 等 份 ， 十 分 位 数 将 其 分 成 10 
等 份 ， 百 分 位 数 将 其 分 成 100 等 份 等 。 

五 分 位 数 法 是 数据 分 析 的 常用 方法 ,在 及 语言 中 ， 可 使 用 fivenum 函数 计算 五 分 位 数 
( fivenum 函数 会 返回 以 下 数据 : minimum, lower-hinge, median, upper-hinge, maximum), 
下 面 用 fivenum 函数 对 地 震 数 据 进行 分 析 。 代 码 如 下 : 


> fivenum(Magnitude) 
Ei dt Led Lat Bea $5 


分 析 结 果 表 明 ， 震 级 最 小 为 1.0， 最 大 为 6.5， 中 位 数 为 1.7， 通 过 1.7 将 一 组 数据 分 为 上 
下 两 组 ， 然 后 再 计算 上 下 两 组 的 中 位 数 1.3 与 2.5。 


5.4.55 EUH TBEREN 


累积 分 布 函 数 完整 地 描述 出 了 一 个 实数 随机 变量 X 的 概率 分 布 ， 是 概率 密度 函数 的 积 
分 ,与 概率 密度 函数 相对 。 它 被 定义 为 随机 变量 小 于 或 者 等 于 某 个 数值 的 概率 P(X < x), BU 
F(x)-P(X < x). 我 们 计算 一 下 震级 的 累积 分 布 。 

1) 通过 有 语言 的 ecdf 函数 计算 累积 分 布 。 

»ecdf(Magnitude)-»mag ecdf 

»mag ecdf 


Empirical CDF 
Call: ecdf (Magnitude) 





x[1:50] = 1, I. 1.2; ecdf(Magnitude) 
6, &.5 
2) 通过 plot 函数 绘制 累积 概率 图 ， 
直观 展示 震级 累积 分 布 。 


> plot(mag ecdf,do.points-FALSE, 
verticals-TRUE) 


绘制 出 的 图 形 如 图 5-14 所 示 。 

图 5-14 的 x 轴 是 震级 , 轴 是 累积 分 
布 概率 ， 当 震级 升 高 时 ， 累 积分 布 概率 也 
随 之 提高 ， 这 个 趋势 很 正常 ， 因 为 累积 分 
布 概率 是 指 小 于 或 等 于 某 个 震级 的 概率 。 
比如 : 从 图 5-14 观察 ， 发 生地 震 的 震级 
fr 3 以 内 的 概率 接近 80%， 震 级 在 2 以 内 
的 概率 接近 60%。 图 5-14 ”震级 累积 分 布 概率 
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5.4.0 TAE 


1. 核 密 度 原理 

利用 前 面 所 说 的 直方 图 估计 数据 分 布 密度 是 有 局 限 性 的 ， 因 为 数据 分 布 的 密度 函数 是 不 
平滑 的 ， 它 受 子 区 间 宽 度 影响 较 大 ， 当 数据 维 数 超过 二 维 时 就 有 局 限 。 

什么 是 密度 函数 呢 ? 连续 型 随机 变量 的 概率 密度 函数 〈 不 至 于 混淆 时 可 简称 为 密度 函数 ) 
是 一 个 描述 这 个 随机 变量 的 输出 值 ， 在 某 个 确定 的 取 值 点 附近 的 可 能 性 的 函数 ， 而 随机 变量 
落 在 某 个 区 域 之 内 的 概率 为 概率 密度 函数 在 这 个 区 域 上 的 积分 ， 当 概率 密度 函数 存在 的 时 
候 ， 累 积分 布 函数 是 概率 密度 函数 的 积分 。 

如 何 由 给 定 样本 点 集合 求解 随机 变量 的 分 布 密度 函数 ? 解决 这 一 问题 的 方法 包括 参数 
估计 和 非 参 数 估计 。 参 数 估计 中 常用 的 是 参数 回归 分 析 ， 它 假定 数据 分 布 符合 某 种 特定 的 性 
态 ， 如 线性 、 可 化 线性 或 指数 性 态 等 ， 然 后 确定 回归 模型 的 未 知 参数 。 但 参数 模型 的 这 种 基 
本 假定 与 实际 的 物理 模型 之 间 常 常 存在 较 大 的 差距 ， 于 是 Rosenblatt 和 Parzen 提出 了 核 密 度 
估计 方法 ， 它 可 估计 未 知 的 密度 函数 ， 是 非 参数 估计 方法 之 一 。 

假设 样本 数据 值 在 D 维 空间 服从 一 个 未 知 的 概率 密度 函数 ， 那 么 在 区 域 R 内 的 概率 为 : 

P= | rp(x)dx 

ERF, P 是 每 个 样本 数据 点 落 入 区 域 R 的 概率 ,假设 在 入 个 样本 数据 点 中 ， 有 大 个 

入 了 区 域 RR， 那 么 就 应 该 服从 二 项 分 布 。 公 式 如 下 : 


Bin(KINP)= RN Rr CP m 
在 N 的 样本 数据 很 大 时 , K 约 等 于 入 xP。 而 男 一 方面 ,假设 区 域 R Eh, IA P Z3 
FF p xV (VAKER R EE). 


于 是 ， 结 合 两 个 不 等 式 子 可 得 : 
p) 35; (5-1) 
根据 上 式 ， 来 估算 p(x) 就 有 两 种 方式 : 第 一 , 玉 不 变 ， 通 过 决定 区 域 亚 的 大 小 来 估算 密 
度 函 数 ， 采 用 K-nearer-neighbour 方法 ; 第 二 ，F 不 变 ， 通 过 决定 天 的 大 小 来 估算 密度 函数 ， 
采用 kernel 方法 。 这 里 选择 第 二 种 方式 ， 假 设 区 域 R 是 一 个 以 x 为 中 心 、 边 长 为 h 的 极 小 立 
方 体 (也 就 是 VARAE), 定义 kernel 函数 (数据 维 数 为 D 维 ， 当 样本 数据 点 落 入 小 立方 体 时 ， 
函数 值 为 1， 其 他 情况 下 为 0 ) 的 公式 如 下 : 
-人 lu] < 1/2, i21, =, D 
0, 其 他 
落 入 立方体 数据 点 的 总 个 数 天 就 可 以 表示 为 : 
K- Y (E39) (5-2) 
根据 式 (5-1), JEI (5-20 代入 式 (5-1) 中 ,可 得 
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EAF, Fa 


2. 核 密度 计算 
R 语言 可 使 用 density 函数 进行 核 密度 估计 ，density 函数 默认 情况 下 在 512 个 点 上 估计 
密度 值 。 下 面 就 用 它 来 计算 一 下 地 震 数据 中 的 震级 核 密度 。 首 先 ， 指 定 hist 函数 的 prob 参数 
为 TRUE， 绘制 核 密 度 直方 图 ; 然后 通过 lines 函数 ， 绘 制 核 密 度 曲线 。 代 码 如 下 : 


> hist(Magnitude,prob-TRUE) 
> lines (density (Magnitude)) 


绘制 出 的 核 密 度 如 图 5-15 所 示 ， 图 中 曲线 就 是 核 密 度 曲 线 。 


Histogram of Magnitude 











Magnitude 


图 5-15 震级 核 密度 


5.5 数据 分 布 分 析 


这 里 以 老年 常见 病 数据 为 例 ， 来 讲解 数据 分 布 的 分 析 。 如 表 5-3 所 示 是 一 些 老年 常见 病 
数据 。 


疾病 名 称 
肺 恶 性 肿瘤 


TETAN 
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疾病 名 称 
胆管 恶性 肿瘤 Lg . 


1) ÆR 中 加 载 数据 ， 然 后 查看 老年 病 的 老人 年 龄 分 布 情况 及 概率 密度 分 布 ， 绘 制 年 龄 
直方 图 。 代 码 如 下 : 


> read.table("aged patients.csv",header-TRUE,sep-",")-»agedpatients 
> hist(agedpatientsS H ) 


绘制 出 的 年 龄 分 布 直方 图 如 图 5-16 所 示 。 
2) 对 年 龄 进行 核 密度 估计 ， 并 绘制 核 密度 曲线 。 


> hist(agedpatients$ 年 龄 ,Prob=TRUE) 
> lines(density (agedpatientss [F4 )) 


绘制 出 的 核 密度 曲线 ， 如 图 5-17 所 示 。 






Histogram of agedpatients$4F &t Histogram of agedpatients$4F $t 
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agedpatients$ 年 龄 
图 5-16 ”年龄 分 布 直方 图 图 5-17 年 龄 的 核 密度 曲线 


3) 通过 min 和 max 两 个 函数 分 析 患 者 的 最 小 年 龄 和 最 大 年 龄 ， 通 过 mean 函数 分 析 年 
龄 的 平均 值 ， 通 过 var 函数 计算 年 龄 的 方差 。 


> min(agedpatientss 年 龄 ) 

[1] 60 

> max(agedpatientss 年 龄 ) 

[1] 90 

> mean(agedpatients$ 年 龄 ) 
[1] 69.09839 

> var(agedpatients$ 年 龄 ) 

[1] 38.60801 
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由 上 述 分 析 可 得 出 一 个 结论 : 63 ~ 72 岁 这 个 阶段 的 老人 必须 要 注意 身体 ， 坚 持 运动 ， 
保持 健康 ， 这 个 年 龄 段 是 急 腹 症 和 肿瘤 两 种 老年 病 的 高 发 期 ， 发 生 概 率 较 大 。 从 60 到 90 岁 
的 老人 都 有 可 能 患 上 这 两 种 老年 病 ， 患 者 的 平均 年 龄 是 69 岁 。 标 准 差 比 较 大 ， 看 来 这 两 种 
老年 病 在 老人 的 各 个 年 龄 段 中 发 生得 比较 普遍 。 

4) 按 年 龄 分 类 汇总 肿瘤 和 急 腹 症 的 数量 。 代码 如 下 : 

> attach(agedpatients) 

> tapply( 肿瘤 ， 年 龄 ，sum) 

60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 88 90 

19 26 26 48 21 35 37 22 21 23 29 26 31 16 19 12 13 19 8 5 424 3 7 2 1 1 03 1 

> tapply( &/ it , 4# ,sum) 


60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 88 90 
2 0 OQ 2 O0 OU 1 0 L Z 4 Ll 170 $2 1 2 2 0 2 6 i O0O L1 0 T 2 0 9D 


5) 分 年 龄 统计 肿瘤 患者 的 数量 。 代 码 如 下 : 
> table (factor (cut (agedpatients$ 年 龄 [agedpatients$ 肿瘤 ==1] ,5))) 


(60,66] (66,72] (72,78] (78,84] (84,90] 
155 158 118 22 5 


6) 分 年 龄 统计 和 急 腹 证 患者 的 数量 。 代 码 如 下 : 


> table(factor(cut(agedpatients$ 年 龄 [agedpatients$ 急 腹 症 --1],5))) 
(60,65.4] 165.4,70.8] (70.8,76.2] (76.2,81.6] (81.6,87] 
4 8 8 5 4 
上 述 分 析 结 果 表 明 : 急 腹 症 患 者 在 65 岁 到 77 岁 之 间 发 病 率 较 高 ， 其 中 70 岁 时 发 病 率 
最 高 ; 而 肿瘤 患者 在 60 岁 到 72 岁 之 间 发 病 率 较 高 ， 其 中 69 岁 时 发 病 率 最 高 。 


5.6 小 结 


本 章 对 统计 学 基础 进行 阐述 ， 介 绍 了 数据 分 析 的 概念 、 发 展 以 及 需要 的 基础 知识 ， 同 时 
从 线性 回归 和 非 线 性 回归 两 个 方面 讲述 了 数据 分 析 基 本 方法 一 一 回归 分 析 ， 并 以 实例 说 明了 
用 语言 进行 数据 分 布 情况 分 析 的 方法 。 

统计 分 析 在 机 器 学 习 和 数据 分 析 中 有 着 举足轻重 的 地 位 。 李 开 复 在 攻读 博士 期 间 主攻 语 
音 识别 。 他 的 导师 坚持 的 方向 是 发 展 和 完善 专家 系统 。 而 他 最 终 发 现 ， 专 家 系统 是 有 严重 局 
限 性 的 ， 无 法 延伸 到 做 不 特定 语 者 的 语音 识别 。 他 认为 有 数据 支持 的 统计 模式 是 唯一 的 希望 ， 
于 是 改 用 统计 的 方法 来 进行 语音 识别 。3 年 中 ， 他 用 统计 的 方法 把 语音 识别 的 准确 率 从 40% 
逐步 提高 到 80%、90%， 最 后 达到 了 96%,《 商 业 周 刊 》 把 他 的 发 明 选 为 1988 年 最 重要 的 科 
学 发 明 。 他 用 统计 学 方法 做 出 的 语音 识别 博士 论文 至 今 还 被 用 作 语 音 识 别 产品 的 理论 基础 。 

Google 在 2006 年 面 对 广 大 用 户 推出 了 关键 词 统计 分 析 系 统 : Google Trends， 链 接 为 : 
http://www.google.com/trends。 这 是 一 个 非常 有 意思 和 价值 的 产品 ， 有 兴趣 的 读者 不 妨 一 试 。 
下 面 是 利用 这 个 系统 对 “machine learning” 这 个 搜索 关键 词 进行 的 统计 分 析 ， 从 图 5-18 和 
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图 5-19 中 可 以 明显 看 出 ， 机 器 学 习 越 来 越 受 人 关注 ， 尤 其 是 从 2011 年 年 底 开 始 ， 人 们 对 机 
器 学 习 的 热衷 度 在 持续 上 升 ， 因 为 这 段 时 期 的 曲线 呈 稳步 上 扬 趋势 。 
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图 5-19 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结果 


思考 题 


1. 本 章 中 介绍 了 用 R 语言 进行 回归 分 析 的 方法 。 请 对 下 列 几 组 数据 进行 回归 分 析 。 
(1 ) x=[2,5,8,9,12,15], y=[18,52,78,101,125,148] 
(2) x=[2,5,8,9,12,15], y=[5,120,502,739,1708,3415] 


(o 第 一 组 数据 适用 线性 回归 ， 第 二 组 数据 适用 非 线性 回归 ， 回 归 方 程 为 ?=xX20+exp(c15)。 


2. 在 Google 关键 词 统计 分 析 中 搜索 “机 器 学 习 ” 的 中 文 关 键 词 ， 描 述 人 们 对 该 关键 词 
兴趣 的 发 展 趋势 ， 目 前 机 器 学 习 的 哪些 分 支 领 域 正在 成 为 人 们 关注 的 热点 。 

3. 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 分 析 2013.3 ~ 2013.4 期 间 的 数 
据 ， 分 震级 统计 这 段 时 期 全 球 发 生 的 地 震 ， 同 时 做 出 这 段 时 间 的 震 深 与 震级 散 点 图 ， 计 算 震 
级 的 累积 分 布 ， 并 显示 累积 分 布 图 。 
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本 章 将 以 R 语言 为 分 析 工 具 对 描述 性 分 析 案 例 进行 剖析 ， 对 于 其 中 涉及 的 统计 分 析 知 识 
也 会 做 简单 介绍 ， 请 各 位 读者 按 准 备 篇 的 指导 将 R 语言 计算 平台 搭建 好 。 


6.1 数据 图 形 化 案例 解析 


数据 是 事实 ， 也 称 观测 值 ， 是 实验 、 测 量 、 观 察 、 调 查 等 活动 的 结果 ， 常 以 数量 的 形式 
给 出 。 数 据 分 析 的 目的 是 把 隐没 在 一 大 批 看 似 杂 乱 无 章 的 数据 中 的 有 用 信息 集中 、 萃 取 和 提 
炼 出 来 ， 以 找 出 所 研究 对 象 的 内 在 规律 。 


6.1.1 点 图 


下 面 以 2010 年 全 国 各 行业 就 业 调 查 数据 (部 分 数据 如 表 6-1 所 示 ， 完 整数 据 在 本 书 下 载 
包 中 ) 为 依据 ， 以 点 图 分 析 为 手段 ， 剂 析 电 子 行业 劳动 报酬 水 平 。 


表 6-1 全 国 各 行业 就 业 调 查 部 分 数据 








































平均 劳动 报酬 平均 教育 经 费 
农林 牧 渔业 22475 143 
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读 人 如 表 6-1 所 示 的 数据 文件 。 代 码 如 下 : 
> read.table("youxiangz.csv",,header-TRUE,sep-",")-»jiuye 


分 析 行 业 报酬 水 平 ， 以 电子 行业 的 劳动 报酬 为 例 进行 讲解 ， 主 要 步骤 如 下 。 
1) 从 数据 集中 筛选 电子 行业 的 劳动 报酬 。 代 码 如 下 : 


> jiuye$ 行业 名 称 [grepl (" 电子 ",jiuye$ 行业 名 称 ) ] ->jyhy 
Ss jiuyes 平均 劳动 报酬 [grepl(" 电子 ",jiuye$ 行业 名 称 ) ] ->Jygz 
> names (jygz)<-jyhy 


2) 绘制 电子 行业 薪水 点 图 ， 如 图 6-1 所 示 。 从 图 6-1 中 可 清楚 地 看 到 7 个 电子 行业 的 薪 
水 分 布 情况 。 可 将 图 6-1 分 为 若干 行 ， 每 一 行 代 表 一 个 行业 ， 点 在 每 行 的 不 同位 置 代表 不 同 
的 报酬 ， 所 有 行 的 数值 遵循 同一 刻度 (刻度 尺 在 点 图 的 最 下 方 ， 从 40000 到 120000 分 成 4 个 
区 域 )。 

3) 找到 薪水 最 高 、 最 低 的 行业 。 首 先 找到 图 6-1 中 相应 行业 代表 的 行 ， 然 后 在 该 行 找 
到 由 点 代表 的 刻度 值 (点 在 某 行 的 位 置 )， 最 后 在 刻度 尺 中 找到 相应 数值 ， 读 取 数 值 。 很 明 
显 ， 代 表 “ 电 子 计 算 机 制造 ”行业 报酬 的 点 在 所 有 行 中 最 贴近 右 端 ， 属 于 薪水 最 高 的 行业 ， 
而 “家 用 电器 及 电子 产品 专门 零售 ”行业 的 数值 在 最 左 端 ， 属 于 电子 行业 中 薪水 最 低 的 行业 。 


> dotchart(jygz) 


家 用 电器 及 电子 产品 专门 零售 

机 械 设备 五 金 交 电 及 电子 产品 批发 
其 他 电子 设备 制造 

电子 元 件 制 造 

电子 器 件 制造 


电子 计算 机 制造 


通信 设备 计算 机 及 其 他 电子 设备 制造 业 


40 000 80 000 120 000 





图 6-1 电子 行业 薪水 点 图 


6.41.2 “” 饼 图 和 条 形 图 
下 面 以 饼 图 和 条 形 图 为 分 析 手 段 ， 对 中 介 行 业 的 平均 劳动 报酬 进行 剖析 。 
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1) 以 条 形 图 来 表示 平均 劳动 报酬 。 代 码 如 下 : 


> jiuyes 平均 劳动 报酬 [grepl(" PA ",jiuyes 行业 名 称 ) ] ->jygz 
> jiuyes 行业 名 称 [arepl(" 中 介 " ,jiuyes$ 行业 名 称 ) ] ->jyhy 

> names (jygz)<-jyhy 

> barplot (jygz,horiz = TRUE) 


绘制 结果 如 图 6-2 所 示 。 

从 图 6-2 可 明显 观察 到 ,“ 科 技 中 介 服 务 ”行业 的 平均 劳动 报酬 位 居 第 一 , “职业 中 介 服 
务 ” 位 居 最 后 。 

2) 除了 条 形 图 ， 还 可 以 用 饼 图 分 析 平 均 劳动 报酬 。 代 码 如 下 : 


> pie(jygz) 


绘制 结果 如 图 6-3 所 示 。 
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图 6-2 中介 行业 的 平均 劳动 报酬 条 形 图 图 6-3 ”中 介 行 业 的 平均 劳动 报酬 饼 图 


观察 图 6-3， 代 表 “ 科 技 中 介 服 务 ” 的 面积 所 占 比 重 最 大 ， 因 此 属于 平均 劳动 报酬 最 高 
的 中 介 服 务 行业 。 


6.1.3” 茎 叶 图 和 箱 线 图 

本 节 将 要 讲解 的 茎 叶 图 和 箱 线 图 ， 可 能 大 家 平时 接触 得 比较 少 ， 但 在 数据 分 析 中 经 常用 
到 。 茎 叶 图 和 箱 线 图 不 同 于 前 面 的 图 表 ， 表 面 看 上 去 比较 抽象 ， 一 旦 掌握 了 读 图 的 方法 后 ， 
会 发 现 它 们 表现 数据 的 能 方 还 是 很 强 的 。 


1. ZH Er 

zEnp Xp "EE", 1-55 B A EK RH P oe GET ER, REE 
本 不 变 或 变化 不 大 的 位 作为 一 个 主干 ， 并 将 变化 大 的 位 的 数 作 为 分 枝 ， 列 在 主干 的 后 面 ， 这 
样 就 可 以 清楚 地 看 到 每 个 主干 后 面 有 几 个 数 ， 每 个 数 具体 是 多 少 。 下 面 以 产品 单位 成 本 数据 
为 例 ， 分 析 它 的 茎 叶 图 ， 如 表 6-2 所 示 。 
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表 6-2 产品 单位 成 本 数据 






单位 成 本 (元 / 台 ) 





HE 


在 RR 语言 中 ,使 用 stem 函数 进行 茎 叶 图 分 析 ， 其 格式 为 : 
> stem( 变量 ，scale= 长 度 ，width= 绘图 宽度 ，atom= 容 差 ) 


首先 调用 read.table 方法 读 取 数 据 文 件 ， 然 后 调用 stem 函数 绘制 荃 叶 图 。 代 码 如 下 : 


»read.table("cp.csv",,header-TRUE,sep-",")-»cp 
> stem(cp$ 单机 成 本 .元 . 8 .,scale-2) 
The decimal point is 1 digit(s) to the right of the | 
stem 函数 的 scale 参数 为 2， 表示 将 图 的 长 度 设置 为 2。stem 函数 生成 的 成 本 数据 茎 叶 图 
如 下 : 


29 | 68 

30 | 1356778 
31 | 1135 

32 WV 1 

33 | 

34 | 36 


荃 叶 图 的 每 一 行 表示 每 个 茎 与 它 的 叶子 ,“|” 前 面 是 蕉 ， 而 “|” 后 面 是 叶 。 以 最 后 一 行 
“34|36” 为 例 ,“|” 前 面 的 “34” 是 荃 ， 后 面 的 “36” 是 叶 ， 这 行 的 意思 是 : 百 位 数 为 3, 十 
位 数 为 4 的 数据 有 两 个 ,分 别 是 : 345 和 346。 

从 茎 叶 图 中 可 看 出 ， 单 位 成 本 主要 集中 在 300 ~ 309 元 ， 因 为 代表 茎 30 的 行 拥有 的 叶子 最 
多 。 此 外 ， 茎 33 的 行 没 有 一 个 叶子 ， 这 说 明 没有 一 件 产品 的 单位 成 本 在 330 ~ 339 元 这 个 范围 内 。 


2. 箱 线 图 分 析 

箱 形 图 提供 了 一 种 只 用 5 个 点 来 对 数据 集 做 简单 总 结 的 方式 ， 这 5 个 点 包括 最 大 值 、 最 
小 值 、 中 位 数 、 下 四 分 位 数 和 上 四 分 位 数 。 箱 形 图 中 最 重要 的 内 容 是 对 相关 统计 点 的 计算 ， 
相关 统计 点 可 以 通过 百 分 位 计算 方法 进行 实现 。 

以 2010 年 全 国 就 业 调 查 数据 为 例 ， 绘 制 “ 平 均 教育 经 费 ” 的 箱 形 图 并 进行 分 析 。R 语 
言 中 ， 实 现 箱 线 图 分 析 的 相应 函数 为 boxplot。 下 面 的 代码 绘制 平均 教育 经 费 的 箱 形 图 。 
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> boxplot (jiuyes 平均 教育 经 费 ) 
如 图 64 所 示 的 箱 形 图 将 平均 教育 经 费 很 形象 地 分 为 











中 心 、 延 伸 以 及 分 部 状态 的 全 部 范围 。 中 间 那 个 箱子 的 顶 | 
部 是 上 四 分 位 数 ， 底 部 是 下 四 分 位 数 ， 中 间 的 粗 线 是 中 位 " 
数位 置 ， 箱 体 由 上 下 伸 出 的 垂直 部 分 表示 数据 的 散布 范围 。 
另外 在 散布 范围 外 还 有 一 些小 圆 点 ， 那 些 是 异常 点 ， 可 见 
平均 教育 经 费 有 一些 特大 值 ， 最 大 的 异常 值 超过 了 12 000。 MI ] 
除了 箱 形 图 外 ， 在 RR 语言 中 ， 还 可 以 使 用 fivenuom 7" i 
oL 一 二 





函数 来 分 析 前 面 说 的 5 个 点 的 概要 。 代 码 如 下 : 
> fivenum(cps 单机 成 本 .元 .人 台 .) 
分 析 结 果 如 下 ， 它 们 分 别 是 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 、 最 大 值 。 


[1] 296.210 304.275 307.225 313.915 346.230 


图 6-4 平均 教育 经 费 的 箱 形 图 


6.2 ”数据 分 布 趋势 案例 解析 
本 节 继续 以 产品 成 本 和 全 国 就 业 调查 数据 为 例 ， 剖 析 这 两 类 数据 的 分 布 趋势。 


6.2.1 平均 值 
下 面 使 用 RR 语言 的 mean 函数 统计 就 业 调查 数据 中 的 “平均 劳动 报酬 ”。 代 码 如 下 : 


> mean (jiuye[[" 平均 劳动 报酬 "] ] ) 
[1] 42365.36 


同时 ， 还 可 以 统计 一 下 “平均 劳动 报酬 ”和 “平均 教育 经 费 ” 。 代 码 如 下 : 
> cbind(jiuye[[" 平均 劳动 报酬 "]] ,jiuye[[" 平均 教育 经 费 "]]) 


> apply(jiuyeinfo,2,mean) 
[1] 42365.365 391.035 


6.2.2 ”加 权 平 均值 
加 权 平 均 数 与 算术 平均 数 类 似 ， 但 数据 集中 的 每 个 数据 对 于 平均 数 的 贡献 并 不 是 相等 的 ， 
有 些 数据 要 比 其 他 的 数据 更 加 重要 。 因 此 ,在 加 权 平均 法 中 ， 每 个 数据 都 有 其 相对 应 的 权重 。 
以 产品 成 本 数据 为 例 ， 剖 析 加 权 平 均值 。 首 先 读 取 产 品 成 本 数据 。 代 码 如 下 : 


> read.table("cp.csv",,header-TRUE,sep-",")-»cp 


> cp 

序号 产量 . 台 。 单机 成 本 .元 .人 台 . 
1 1 4300 346.23 
2 2 4004 343.34 
3 3 4300 327.46 
4 4 5016 313.27 
5 5 5511 310.75 
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6 6 5648 307.61 
7 7 5876 314.56 
8 8 6651 305.72 
9 9 6024 310.82 
10 10 6194 306.83 
11 Li 7558 305.11 
12 12 7381 300.71 
13 13 6950 306.84 
14 14 6471 303.44 
15 15 6354 298.03 
16 16 8000 296.21 


然后 ， 求 产品 平均 单位 成 本 。 代 码 如 下 : 


> weighted.mean(cp$ 单机 成 本 .元 . 台 . ,cp$ 产 量 . 人 台 .) 
[1] 309.9866 


6.2.3 ”数据 排序 


在 RR 语言 中 ,使 用 sort 函数 进行 数据 排序 。 比 如 ， 要 对 “平均 教育 经 费 ” 进 行 排序 ， 可 
采用 如 下 代码 : 


> sort (jiuves 平均 教育 经 费 ) 








[1 0 0 0 2 2 2 6 7 7 8 10 I3 
13] 27 30 31 31 31 32 35 37 38 42 42 44 
25] 46 50 51 55 55 62 63 65 66 66 67 71 
[37 72 72 75 75 76 80 89 92 93 93 95 95 
[49] 100 100 100 100 100 105 109 110 13.4. 115 118 119 
[61] 125 136 138 143 144 145 146 147 147 149 149 157 
[73 159 161 161 162 162 166 168 168 168 ITA LU i177 
85 182 184 186 188 190 196 196 196 200 201 206 210 
97] 210 212 212 221. 224 225 230 230 241 241 247 247 
[109] 258 260 267 267 276 276 271 282 295 295 298 299 





[121] 303 304 305 306 308 314 315 317 330 332 337 340 
[133 341 342 348 367 369 3T 374 374 389 389 396 402 
[145 405 409 416 422 422 423 431 436 443 454 455 461 
[157 466 470 486 502 522 524 535 551 551. 554 555 557 
[169 563 5l 582 645 679 682 692 122 738 483 768 782 
[181 818 830 832 840 840 858 890 890 890 986 995 1096 
[193 1131 1198 1255 1469 1553 2087 2564 12645 


排序 后 ， 可 以 初步 发 现 ， 这 些 行 业 的 教育 经 费 中 ， 最 大 的 有 12645， 而 最 小 的 除 0 之 外 
还 有 2， 不 同行 业 之 间 的 教育 经 费 差异 很 大 。 
也 可 以 改变 排序 顺序 ， 通 过 指定 decreasing 参数 为 TRUE， 实现 按 从 大 到 小 的 顺序 排列 。 
代码 如 下 : 
> sort (jiuyes 平均 教育 经 费 ,Gecreasing-TRUE) 
[1] 12645 2564 2087 1553 1469 1255 1198 1131 1096 995 986 890 
ELSI 890 890 858 840 840 832 830 818 782 768 753 738 


[25] 722 692 682 679 645 582 591 563 557 555 554 551 
[37] 553. 535 524 522 502 486 470 466 461 455 454 443 
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[49] 436 431 423 422 422 416 409 405 402 396 389 389 
[61] 374 374 37 369 367 348 342 341 340 337 332 330 
[73 317 315 314 308 306 305 304 303 299 298 295 295 
[85] 282 277 276 276 267 267 260 258 247 247 241 241 
[97 230 230 225 224 221 212 212 210 210 206 201 200 
[109] 196 196 196 190 188 186 184 182 177 177 172 168 
[121] 168 168 166 162 162 161 161 159 157 149 149 147 





[133] 147 146 145 144 143 138 136 125 119 118 11$ 111 
[145] 110 109 105 100 100 100 100 100 95 95 93 93 
[157 92 89 80 76 75 75 72 72 71 67 66 66 
[169 65 63 62 55 55 51 50 46 44 42 42 38 
[181 37 35 32 3. 31 31 30 27 13 10 8 E 
[193] 7 6 2 2 2 0 0 0 


6.24 ”中 位 数 
中 位 数 比 平均 值 更 有 稳健 性 ， 因 为 它 不 受 偏 态 分 布 的 影响 。 代 码 如 下 : 


> median(jiuyeS 平均 教育 经 费 )# 中 位 数 

[1] 222.5 

> mean (jiuyes 平均 教育 经 费 )# 平均 数 

[1] 391.035 

教育 经 费 的 中 位 数 222.5 与 它 的 平均 值 391.035 有 一 定 差距 ， 这 说 明 平 均 教 育 经 费 不 是 
对 称 分 布 的 。 


6.2.5 RÆ, MERE 


极 差 是 一 组 数据 中 最 大 数据 与 最 小 数据 的 差 ， 用 来 刻画 一 组 数据 的 离散 程度 ， 反 映 变量 
分 布 的 变异 范围 和 离散 幅度 ， 在 样本 总 体 中 任何 两 个 单位 的 标准 值 之 差 都 不 能 超过 极 差 。 同 
时 ， 它 还 能 体现 一 组 数据 波动 的 范围 。 下 面 的 代码 计算 “平均 教育 经 费 ”的 极 差 。 

> max (jiuyes$ 平均 教育 经 费 ) -min (jiuyes$ 平均 教育 经 费 ) 

[1] 12645 

相对 极 差 而 言 ， 四 分 位 数 间距 (上 四 分 位 数 与 下 四 分 位 数 之 差 ) 更 稳定 ， 它 不 受 两 端 个 
别 极 大 值 或 极 小 值 的 影响 ， 可 理解 为 中 间 50% 观察 值 的 极 差 ， 因 此 又 被 称 为 半 极 差 。 

四 分 位 数 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数值 由 小 到 大 排列 并 分 成 4 等 份 ， 处 于 3 
个 分 隔 点 位 置 的 得 分 就 是 四 分 位 数 ， 下 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 25% 位 置 
的 数 ， 上 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 75% 位 置 的 数 。 四 分 位 数 在 R 语言 中 用 
quantile 函数 求解 ， 下 面 的 代码 计算 了 “平均 教育 经 费 ” 和 “平均 劳动 报酬 ”的 四 分 位 数 。 


> quantile (jiuyes$ 平均 教育 经 费 ) 
0% 25% 50% 75% 100% 
0.0 100.0 22245 425.0 12645.0 
> quantile(jiuyeS 平均 劳动 报酬 ) 
0$ 25% 50% 75% 100% 
13624.0 28607.5 37681.0 51762.0 150098.0 
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变异 度 反 映 数据 围绕 中 心 位 的 离散 户 ， 四 分 位 数 间距 数值 越 大 ， 变 异 度 越 大 ， 反 之 ， 变 
异 度 越 小 。 在 及 语言 中 使 用 IQR 函数 求解 四 分 位 数 间距 ， 下 面 的 代码 计算 “平均 教育 经 费 ” 
和 “平均 劳动 报酬 ”的 四 分 位 数 间距 。 

> IQR(jiuyeS 平均 教育 经 费 ) 

[1] 325 


> IQR(jiuyeS 平均 劳动 报酬 ) 
[1] 23154.5 


从 执行 结果 来 看 ，“ 平 均 教育 经 费 ” 相 比 “ 平 均 劳动 报酬 ”变异 度 小 很 多 。 
6.2.6 方差 
方差 是 重要 的 数据 分 散 程 度 度量 指标 。 其 计算 公式 为 : 


在 RR 语言 中 ， 可 使 用 var 也 数 统计 方差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 方差 。 


> var (jiuyes 平均 教育 经 费 ) 
[1] 883263.6 


6.2.7 ”标准 差 
标准 差 也 是 重要 的 数据 分 散 程度 度量 指标 。 其 计算 公式 为 : 


i re Gy 


在 R 语 言 中 使 用 sd 函数 统计 标准 差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 标准 差 。 
> sd (jiuye$ 平均 教育 经 费 ) 


[1] 939.821 
6.2.8 ”变异 系数 、 样 本 平方 和 
1. 变异 系数 


变异 系数 ， 又 称 “离散 系数 "， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 ， 其 定义 为 标准 
差 与 平均 值 之 比 。 变 异 系数 的 计算 公式 为 : 


c.y- 3 x 100% 


上 式 中 5S 表示 标准 差 ， x 表示 平均 值 。 变 异 系数 越 小 ， 变 异 程度 越 小 ; 反之 ， 变 异 系数 
越 大 ， 变 异 程度 越 大 。 下 面 的 代码 计算 了 “平均 教育 经 费 ” 的 变异 系数 。 


> sd(jiuyes 平均 教育 经 费 ) /mean (jiuyes 平均 教育 经 费 ) 
[1] 2.403419 


再 看 看 “平均 劳动 报酬 ”的 变异 系数 。 代 码 如 下 : 
> sd(jiuyes 平均 劳动 报酬 ) /mean(jiuyes 平均 劳动 报酬 ) 
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[1] 0.4916487 
可 见 ,“ 平 均 教 育 经 费 ” 相 对 于 “平均 劳动 报酬 ”分 布 更 分 散 ， 因 为 它 的 变异 系数 更 高 。 


2. 样本 平方 和 

样本 校正 平方 和 ( CSS). 为 样本 与 均值 差 的 平方 求 和 。 下 面 的 代码 计算 “平均 教育 经 费 ” 
的 样本 校正 平方 和 。 

> sum( (jiuyes 平均 教育 经 费 -mean (jiuyes$ 平均 教育 经 费 ) ) ^2) 

[1] 175769451 

样本 未 校正 平方 和 (USS) 为 样本 值 平方 的 求 和 。 下 面 的 代码 计算 了 “平均 教育 经 费 ” 
的 样本 未 校正 平方 和 。 


> sum(jiuyeS 平均 教育 经 费 ^2) 
[1] 206351125 


6.2.9” 偏 度 系 数 、 峰 度 系数 


1. 偏 度 系数 

在 统计 学 中 ， 偏 度 系 数 是 用 于 衡量 实数 随机 变量 概率 分 布 的 不 对 称 性 的 。 偏 度 的 值 可 以 
为 正 ， 可 以 为 负 ， 是 无 量 纲 的 量 ， 其 取 值 通常 为 -3 ~ +3， 其 绝对 值 越 大 ， 表 明 偏 斜 程度 越 
大 。 均 值 右 侧 更 分 散 的 数据 偏 度 系数 为 正 ， 左 侧 更 分 散 的 数据 偏 度 系 数 为 负 。 

偏 度 系数 的 计算 公式 为 : 

= G1 33$ 22679" 

在 RR 语言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 ” 的 偏 度 系数 。 

> mean (jiuyes 平均 教育 经 费 ) ->mymean 

> sd(jiuye$ 平均 教育 经 费 ) ->mysd 

> length(jiuyeS$ 平均 教育 经 费 ) ->myn 

> jiuyeS 平均 教育 经 费 ->x 


> myn/((myn-1)* (myn-2))*sum( (x-mymean) ^3) /mysd^3 
[1] 11.36649 


2. 峰 度 系 数 

峰 度 系数 衡量 实数 随机 变量 概率 分 布 的 峰 态 ， 峰 度 高 就 意味 着 方差 增 大 是 由 低频 度 的 大 
于 或 小 于 平均 值 的 极端 差 值 引起 的 。 当 数据 分 布 为 正 态 分 布 时 ， 峰 度 系 数 近似 为 0; 当 数 据 
分 布 较 正 态 分 布 的 尾部 更 分 散 时 ， 峰 度 系数 为 正 ， 两 侧 的 极端 数据 较 多 ; 除 此 以 外 ， 峰 度 系 
数 为 负 ， 两 侧 的 极端 数据 较 少 。 


峰 度 系数 计算 公式 为 : 
-— Mnl) yo xy 30D 
Kw Do-2)-3)9 2,3) (n-2)(n-3) 


在 RR 语言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 ” 的 峰 度 系数 。 
> mean (jiuyes$ 平均 教育 经 费 ) ->mymean 
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> sd(jiuyeS 平均 教育 经 费 ) ->mysd 

> length (jiuyes$ 平均 教育 经 费 ) ->myn 

> jiuye$ 平均 教育 经 费 ->x 

»((myn* (myn«1))/((myn-1)* (myn-2) * (nyn-3) ) *sum( (x-mymean) ^4) /mysd^4- 
(3* (myn-1) ^2) / ( (myn-2) * (myn-3) )) 

[1] 146.8809 


63 正 态 分 布 案例 解析 


6.3.4. 正 态 分 布 函数 

对 于 一 维 实 随机 变量 X， 设 它 的 累积 分 布 函数 是 F(x)。 如 果 存 在 可 测 函 数 f(x)， 满 足 : 

V- c <a< œ , Fy(a)- Ca fdk 

那么 下 是 一 个 连续 型 随机 变量 ， 并 且 .Ao) 是 它 的 概率 密度 函数 。 

累积 分 布 函数 ， 又 叫 累计 分 布 函数 ， 是 概率 密度 函数 的 积分 ， 能 完整 地 描述 一 个 实 随机 
变量 XX 的 概率 分 布 情况 。 对 于 所 有 实数 x， 累 积分 布 函数 的 定义 如 下 : 

F(x)=P(X x x) 
正 态 分 布 的 累积 分 布 函数 为 : 


2 
F(x)- zz MI: Cela 
其 中 , 是 均值 ，c 是 方差 。 
正 态 分 布 的 概率 密度 曲线 通常 如 图 6-5 所 示 。 





一 ] —0.8 0.6 -0.4 -02 0 0.2 0.4 0.6 0.8 I x 
图 6-5 正 态 分 布 的 概率 密度 曲线 
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说 到 正 态 分 布 ， 不 得 不 提 一 下 偏 态 分 布 ， 偏 态 分 布 是 指 频数 分 布 不 对 称 ， 集 中 位 置 偏向 
于 一 侧 ， 若 集中 位 置 偏向 数值 小 的 一 侧 ， 
则 称 为 正 偏 态 分 布 ; 如 果 集 中 位 置 偏向 数 
值 大 的 一 侧 ， 则 称 为 负 偏 态 分 布 。 如 图 
6-6 所 示 ， 左 边 为 负 偏 态 ， 右 边 为 正 偏 态 。 











6.3.2 峰 度 系 数 分 析 Negative Skew Positive Skew 
-6 偏 态 
可 用 峰 度 系数 计算 “平均 劳动 报酬 ” 图 6-6 偏 态 分 布 


相对 于 “平均 教育 经 费 ” 哪 个 更 接近 正 态 分 布 。 代 码 如 下 : 


> mean (jiuye$ 平均 劳动 报酬 ) ->mymean 

> sd(jiuye$ 平均 劳动 报酬 ) -»mysd 

> length(jiuyeS 平均 劳动 报酬 ) ->myn 

> jiuye$ 平均 劳动 报酬 ->x 

»((myn*(myn«i))/((myn-1)*(myn-2)*(myn-3))*sum((x-mymean)^4)/mysd^4- 
(3* (myn-1)^2) / ( (nyn-2) * (myn-3) )) 

[1] 5,417817 


上 面 计算 出 了 “平均 劳动 报酬 ”的 峰 度 系数 为 5.417 817,“ 平 均 教 育 经 费 ” 的 峰 度 系 数 
为 146.8809 (IL 6.2.9 节 )。 这 两 个 峰 度 系数 表明 ,“ 平 均 劳 动 报酬 ”相对 于 “平均 教育 经 费 ” 
更 接近 正 态 分 布 。 

从 下 面 的 分 析 中 可 以 发 现 ,产品 产量 最 适合 正 态 分 布 模型 ， 因 为 它 的 峰 度 系数 仅 
为 -0.683 0728, ， 非 常 接近 正 态 分 布 。 


> mean(cp$ 产量 . 台 . ) ->mymean 
> sd(cp$ 产量 .人 台 .)->mysd 
> length(cp$ 产量 . £ . ) ->myn 
> cpS$ 产 量 . 台 .->x 
»((myn*(myn-«1))/((myn-1)*(myn-2)*(myn-3))*sum((x-mymean)^4)/mysd^4- 
(3* (myn-1) ^2) / ( (myn-2) * (myn-3))) 
[1] -0.6830728 


6.3.3 ”累积 分 布 概率 


在 使 用 pnorm 求 产 品 产量 的 分 布 函数 时 ， 对 应 的 每 个 实数 随机 变量 都 有 其 累积 分 布 概 
率 。 下面 的 代码 计算 产品 产量 的 累积 分 布 概率 。 


> mean (cp$ 产量 . £ .)-»mymean 
> sd(cp$ 产量 .人 台 .)->mysd 
> length(cp$ 产量 . 台 .)->myn 
> cp$ PE. f .->x 
>X 
[1] 4300 4004 4300 5016 5511 5648 5876 6651 6024 6194 7558 7381 6950 6471 
[15] 6354 8000 
> pnorm(x,mymean,mysd) 
[1] 0.07435941 0.04519643 0.07435941 0.20013522 0.33567136 0.37868351 
[7] 0.45345196 0.70390728 0.50306546 0.55994848 0.90310411 0.87500925 


ww ai bbt. com DO0O00OO 


182 4» 第 三 部 分 “统计 分 析 实 战 篇 


[13] 0.78449233 0.64954647 0.61239714 0.95270286 


为 了 更 好 地 观察 效果 ， 再 绘制 一 张 产 品 产量 


的 累积 分 布 概 率 的 散 点 图 。 


> plot(x,pnorm(x,mymean,mysd)) 


绘制 结果 如 图 6-7 所 示 。 
6.3.4 ”概率 密度 函数 
1. 概率 密度 概述 


一 个 连续 型 随机 变量 的 概率 密度 函数 (简称 为 
密度 函数 ) 是 描述 这 个 随机 变量 的 输出 值 在 某 一 个 





o 
oo 
=y 


e 
~ 





pnorm(x, mymean, mysd) 
S 


确定 的 取 值 点 附近 的 可 能 性 的 函数 。 随 机 变量 的 取 
值 落 在 某 个 区 域 之 内 的 概率 则 是 概率 密度 函数 在 这 


个 区 域 上 的 积分 ， 当 概率 密度 函数 存在 的 时 候 ， 累 积分 布 函数 则 是 概率 密度 函数 的 积分 。 


正 态 分 布 的 概率 密度 函数 为 : 


其 中 , 4 是 均值 ，o 是 方差 。 


2 
noise Lc 


其 概率 密度 曲线 关于 x=y 对 称 。 


2. 概率 密度 函数 计算 


在 有 R 语 言 中 ， 使 用 dnom (变量 ,平均 值 ， 标 准 差 ) 求解 正 态 


的 代码 计算 产品 产量 的 概率 密度 。 


> mean(cp$ 产量 . 台 . )->mymean 


sd(cp5 产 量 . 台 .) ->mysda 


length(cp$ 产量 . 台 .)-»myn 


> 

> 

> cp$ 产量 .人 台 .->x 

> dnorm(x,mymean,mysd) 
[1] 
[6] 
[11] 


[16] 8.307503e-05 


查看 产品 产量 均值 ， 得 到 如 下 结果 : 


> mymean 
[1] 6014.875 


4000 


5000 6000 7000 
x 


图 6-7 产品 产量 累积 分 布 


1.184240e-04 8.009886e-05 1.184240e-04 2.358477e-04 3.070239e-04 
3.202882e-04 3.336542e-04 2.910430e-04 3.359337e-04 3.321435e-04 
1.444115e-04 1.733374e-04 2.463862e-04 3.120546e-04 3.225207e-04 





8000 


分 布 概率 密度 函数 。 下 面 


绘制 散 点 图 如 图 6-8 所 示 。 可 以 看 到 该 曲线 接近 于 以 6014.875 为 对 称 点 的 对 称 分 布 。 绘 


制 代 码 如 下 : 


>plot (x,dnorm(x,mymean,mysd)) 
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此 外 ，rnorm 还 可 以 返回 正 态 分 布 随机 数 ， 调 用 格式 为 morm (长 度 ,平均 值 ,标准 差 )。 
比如 : : 


»rnorm(50,0,1)-»rx 
» plot(rx,dnorm(rx)) 


如 图 6-9 所 示 是 一 个 经 典 的 正 态 密度 曲线 ， 从 曲线 上 看 就 像 一 个 驼峰 。 








dnorm(x, mymean, mysd) 




















图 6-8 产品 产量 概率 密度 图 图 6-9 正 态 密度 曲线 


6.3.5 “分 位 点 

分 位 点 分 为 上 a 分 位 点 与 下 a 分 位 点 。 

1. Fa 分 位 点 

可 从 概率 密度 函数 的 角度 理解 下 a 分 位 点 。 设 连续 随机 变量 的 累积 分 布 函 数 为 F(x)， 
密度 函数 为 fx)， 则 有 : 

FoD=| -JOPE < Zo)=a 

上 式 的 含义 为 : 连续 随机 变量 XY 小 于 等 于 Z 的 概率 为 a。 在 这 里 , 称 Z 是 了 的 下 a 分 
位 点 。 

下 面 计算 产量 分 布 的 下 a 分 位 点 。 设 下 a 分 位 点 的 a=25%=0.25， 需 要 分 析 产 量 小 于 多 少 
的 概率 为 25%。 

计算 产量 分 布 的 下 a 分 位 点 (a=25%)， 可 如 下 调用 qnorm 函数 (其 中 ，mean 为 平均 值 ， 
sd 为 标准 差 ): 


qnorm(0.25,mean, sd) 
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具体 代码 如 下 : 


> mean(cp$ 产量 . £ .)->mymean 
>sd(cp$ 产量 . £ .)->mysd 
»qnorm(0.25,mean-mymean,sd-mysd) 
[1] 5213.9 


上 面 的 计算 结果 表明 ,产量 <5213.9 的 概率 为 25%。 


2. Ea 分 位 点 
上 a 分 位 点 的 公式 为 : 


F(x)- M ? fo)-pG Z)-1-p(x < Z.)-a 


其 中 ，Z 为 的 上 a 分 位 点 。 

分 析 上 a 分 位 点 的 公式 可 发 现 ， 上 a 分 位 点 的 计算 与 下 a 分 位 点 有 关 ， 比 如 : 计算 上 a 
分 位 点 (a=25%) 可 转化 为 计算 下 a 分 位 点 (a=1-25%=75%)。 

下 面 计算 产量 分 布 的 上 a 分 位 点 。 设 上 a 分 位 点 的 a=25%， 需 要 分 析 产 量 大 于 多 少 的 概 
率 为 25%。 

计算 产量 分 布 的 上 a 分 位 点 (a=25%)， 可 如 下 调用 qnorm 函数 (其 中 ，mean 为 平均 值 ， 
s d 为 标准 差 ): 


gnorm(1-0.25,mean,sd) 


> mean(cp$ 产量 . & .)-»mymean 
»sd(cp$ JE. £&.)-»mysd 
»gnorm(0.75,mean-mymean,sd-mysd) 
[1] 6815.85 


上 面 的 计算 结果 表明 ， 产 量 6815.85 的 概率 为 23%， 即 上 a 分 位 点 的 公式 中 ，Z 为 产 
量 6815.85， 上 a 分 位 点 的 a 为 0.25， 可 用 下 式 表 示 : 
P(x»Z.)-p(x»6815.85)-0.25 


3. 绘 效 果 图 

1) 通过 下 面 R 语 句 绘制 如 图 6-10 所 示 的 产品 产量 的 概率 密度 图 ，P(x>0.25) 为 图 6-10 
中 的 阴影 面积 (根据 积分 的 几何 意义 ， 累 积分 布 函数 F(x) 是 密度 函数 ftx) 的 积分 ， 图 中 若干 
点 组 成 了 密度 函数 曲线 ， 而 曲线 与 X 轴 围 成 的 面积 则 为 累积 分 布 )。 

> mean(cp$ 产量 . 台 .)-»mymean 

>sd(cp$ 产量 .人 台 .)->mysd 

> cp$ ŽE. f .->x 


»plot(x,dnorm(x,mymean,mysd)) 
»abline(v-6815.85) 


2) 绘制 产品 产量 的 累积 分 布 图 (如 图 6-11 所 示 )。 可 绘制 一 个 产品 产量 的 上 a(a=0.25 ) 
分 位 点 和 下 a(a=0.25 ) 分 位 点 的 效果 图 。 绘 制 代 码 如 下 : 
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> mean(cp$ 产量 . & .)-»mymean 
>sd(cpS$ 产 量 . £ .)->mysd 

> Cp$ 产量 . 台 .->x 

»plot (x,pnorm(x,mymean,mysd)) 
»abline(v-26815.85) 
»abline(v-5213.85) 
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图 6-10 产品 产量 的 上 a 分 位 点 图 6-11 产量 的 上 cx 分 位 点 和 下 a 分 位 点 








分 析 绘 制图 6-10 与 图 6-11 所 示 的 结果 ， 能 较 直观 地 验证 刚才 得 到 的 结论 : 上 a(a=0.25 ) 分 
位 点 表明 产量 >6815.85 的 概率 为 5%， 而 下 a(a=0.25 ) 分 位 点 表明 产量 <5213.9 的 概率 为 25%。 


6.3.6 ”频率 直方 图 


在 RR 语言 中 ， 可 使 用 hist 语 句 ( 设 freq 参数 为 TRUE) 生成 频率 直方 图 。 下 面 的 代码 绘 
制 “平均 劳动 报酬 ”的 频率 直方 图 。 
> hist (jiuye[[" 平均 劳动 报酬 "] ] ,Ered=TRUE) 


绘制 结果 如 图 6-12 所 示 。 
6.3.7” 核 概率 密度 与 正 态 概率 分 布 图 


1. 核 概 率 密度 与 正 态 概 率 
下 面 考虑 让 “平均 劳动 报酬 ”的 概率 密度 与 正 态 分 布 在 一 张 图 中 显示 出 来 ， 这样 就 能 更 
好 地 看 清 数 据 的 分 布 情况 。 示 例 代码 如 下 : 
hist (jiuye[[" 平均 劳动 报酬 "]] ,freq=FALSE) 
lines (density (jiuye[[" 平均 劳动 报酬 "“] ] ) ,col="red") 


> 

- 

> x«-c(0:ceiling(max(jiuye[[" 平均 劳动 报酬 "]]))) 

> lines (x,dnorm(x,mean(jiuye[[" 平均 劳动 报酬 "11) ,saQ(jiuye[[" 平均 劳动 报酬 "] ] ) ) , col-"blue") 


绘制 结果 如 图 6-13 所 示 。 
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Histogram of jiuye[[“ 平 均 劳 动 报酬 ”]] 










Histogram of jiuye[[“ 平 均 劳 动 报酬 ”]] 





























核 概率 密度 
2.0e-05- 
x 正 态 概率 
1.5e-05. 
rw B 
外 8 1.0e-054 
& 404 a 
5.0e-06- 
204 
ad 0.0e-00] 
0 50000 100000 150000 0 50 000 100 000 150 000 
jiuye[[“ 平 均 劳 动 报酬 门 ] jiuye[[“ 平 均 劳 动 报 酬 ”]] 
图 6-12 平均 劳动 报酬 的 频率 直方 图 图 6-13 平均 劳动 报酬 的 概率 密度 与 正 态 分 布 


从 图 6-13 中 可 以 看 到 ，“ 平 均 劳动 报酬 ”的 偏 度 大 于 0， 直方 图 偏 左 ， 属 于 偏 态 分 布 。 


2. 经 验 累 积分 布 与 正 态 分 布 
经 验 分 布 函 数 是 指 根据 样本 构造 的 概率 分 布 函数 。 设 x, oss x 为 一 组 样本 ,定义 函数 
ma) 表示 样本 中 小 于 或 者 等 于 x 的 样本 个 数 ， 则 称 函数 | 
pu mo) 
n 


为 样本 xi, 22,77, x, 的 经 验 分 布 函数 。 
下 面 的 代码 绘制 “平均 劳动 报酬 ”的 经 验 累积 分 布 与 正 态 分 布 。 


> plot (ecdf (jiuye[[" 平均 劳动 报酬 "1]) , verticals-TRUE,do.p-FALSE) 
> lines (x,pnorm(x,mean (jiuye[[" 平均 劳动 报酬 "]]) , sa (jiuye[ [" 平均 劳动 报酬 "]])),col="blue") 


绘制 结果 如 图 6-14 所 示 。 其 中 ， 光 滑 的 线 为 累积 正 态 分 布 曲 线 ， 不 光滑 的 线 为 经 验 累 
积分 布 曲 线 。 


6.3.8” 正 态 检验 与 分 布 拟 合 


1. QQ 
QQ 图 可 以 测试 数据 分 布 是 否 近 似 为 某 种 类 型 分 布 。 如 果 近 似 于 正 态 分 布 ， 则 数据 点 接 
近 下 面 方程 表示 的 直线 。 
y-ax*u 
其 中 ，o 为 标准 差 ，/ 为 平均 数 。 
比如 ， 可 用 它 来 测试 “平均 劳动 报酬 ”分 布 是 否 近 似 于 正 态 分 布 。 在 RR 语言 中 ,使 用 
qqnorm 函数 来 画 数据 点 图 ， 使 用 qqline 函数 画 这 根 直 线 ， 如 图 6-15 所 示 。 代 码 如 下 : 
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ecdffjiuye[[" 平 均 劳 动 报 酬 "]]) 





Normal Q-Q Plot 
1.0 — 
140 000 
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20 000 
0.0 E—ME-----ARRpeM—- 2 o 
0 50 000 100 000 150 000 -3 = =] 0 1 2 3 
x Theoretical Quantiles 
图 6-14 平均 劳动 报酬 的 经 验 累 积分 布 与 正 态 分 布 图 6-15 平均 劳动 报酬 分 布 QQ 图 


> qqnorm([" 平均 劳动 报酬 "] ] ) 
> qqline (jiuye[[" 平均 劳动 报酬 "]]) 


从 图 6-15 来 看 ， 平 均 劳 动 报酬 离 标准 正 态 分 布 还 是 有 差距 的 。 
相对 于 “平均 劳动 报酬 "， 产 品 产量 就 非常 接近 正 态 分 布 。 代 码 如 下 : 


> ggnorm(cp$ 产量 . 


Normal Q-Q plot 
> qqline(cps$ 产量 . 


PS 
B.) 
A 
ge) 











8000 F 
绘制 出 的 QQ 图 如 图 6-16 所 示 。 
2. 正 态 检验 与 分 布 拟 合 B wwe 
E zx S 
1) W 检验 。W 检验 可 以 检验 数据 是 否 3 | 
符合 正 态 分 布 。 在 RR 语言 中 使 用 函数 shapiro. $ inne 
test) 进行 正 态 W 检验 。 代 码 如 下 : b: 
5000 
> shapiro.test(cp$ 产量 . 8.) 
Shapiro-Wilk normality test 
data: cp$ 产量 .人 台 . 4000 fo 
W = 0.9671, p-value = 0.7903 一 2 





0 
Theoretical Quantiles 


图 6-16 产品 产量 QQ 图 


上 述 代码 中 出 现 了 p 值 ， 其 作用 是 : “p 
值 小 于 某 个 显著 水 平 a (如 0.05) 时 ， 认 为 样 
本 不 是 来 自 于 正 态 分 布 的 总 体 。 此 例 中 ，0.7903>0.05， 可 认为 产量 是 正 态 分 布 的 。 

2 ) Kolmogorov-Smirnov 检验 。Kolmogorov-Smirnov 检验 用 于 检验 单一 样本 是 否 来 自 某 
一 特定 分 布 ， 比 如 检验 一 组 数据 是 否 为 正 态 分 布 。 它 的 检验 方法 是 以 样本 数据 的 累计 频数 分 
布 与 特定 理论 分 布 做 比较 ， 若 两 者 间 的 差距 很 小 ， 则 该 样本 取 自 某 特 定 分 布 族 。 可 比较 一 个 
频率 分 布 ftx) 与 理论 分 布 g(x)， 或 者 两 个 观测 值 分 布 来 完成 检验 。 
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可 以 从 假设 检验 的 角度 来 理解 Kolmogorov-Smirnov 检验 ， 假 设 检验 使 用 了 一 种 类 似 于 
“ 反 证 法 ”的 推理 方法 ， 它 先 假设 总 体 中 的 某 项 假设 成 立 ， 计 算 其 会 导致 什么 结果 产生 。 若 
导致 不 合理 现象 发 生 ， 拒 绝 原先 的 假设 ; 若 没 有 导致 不 合理 的 现象 发 生 ， 即 不 拒绝 原 假设 ， 
从 而 接受 原 假设 。 

对 Kolmogorov-Smirnov 检验 而 言 ， 将 原 假设 HO 确定 为 : 两 个 数据 分 布 一 致 或 者 数据 符 
合 特定 理论 分 布 。 用 F(x) 表示 分 布 函 数 ，F,(x) 表示 一 组 随机 样本 的 累积 概率 函数 ， 设 也 为 
Fo(x) 与 F(x) 差距 的 最 大 值 ， 定 义 如 下 : 

D=max|F,(x)-Fo(x)| 
当 实 际 观 测 值 D>D(n,a) 时 ， 则 拒绝 8H0， 否 则 接受 HO 假设 。 
在 RR 语言 中 使 用 ks.test 函数 完成 正 态 性 检验 。 代 码 如 下 : 


ks.test(x, y, ...,alternative - c("two.sided", "less", "greater"), 
exact - NULL) 


上 述 代码 中 有 4 个 参数 ， 第 一 个 参数 x 为 观测 值 向 量 ; 第 二 个 参数 y 为 第 二 观测 值 向 量 
或 者 累计 分 布 函 数 ， 或 者 一 个 真正 的 累积 分 布 丽 数 ， 如 pnorm， 只 对 连续 CDF 有 效 ; 第 三 个 
参数 指明 是 单 侧 检验 还 是 双 侧 检验 ; exact 参数 为 NULL 或 者 一 个 逻辑 值 ， 表 明 是 否 需 要 计 
算 精 确 的 已 值 。 比 如 : 要 生成 两 个 随机 的 正 态 分 布 ， 然 后 检验 这 两 个 分 布 是 否 是 同一 类 型 的 
分 类 。 其 示例 代码 如 下 : 

> ks.test(rnorm(80),rnorm(40)) 

Two-sample Kolmogorov-Smirnov test 

data:  rnorm(80) and rnorm(40) 

D = 0.125, p-value = 0.7874 

alternative hypothesis: two-sided 

从 上 述 代码 可 见 ，p 值 大 于 0.05， 不 拒绝 原 假 设 ， 因 此 可 认为 这 两 个 分 布 是 同一 类 型 。 

Kolmogorov-Smirnov 检验 要 求 待 验 分 布 是 连续 的 ， 连 续 分 布 出 现 相同 值 的 概率 为 0， 也 
就 是 说 ， 数 据 中 若 出 现 相 同 值 ， 则 连续 分 布 的 假设 不 成 立 。 


6.3.9 ”其 他 分 布 及 其 拟 合 


前 面 几 节 介绍 了 R 语言 函数 对 正 态 分 布 的 支持 (函数 名 除 前 级 外 为 norm)。 除 了 正 态 分 
布 外 ，R 语言 还 支持 对 其 他 数据 分 布 的 分 析 和 拟 合 ， 如 下 所 示 : 


指数 分 布 rexp(n,rate-1) 

gama 分 布 rgamma(n,shape,scale=1) 

泊 松 分 布 rpois(n,lambda) 

Weibull 分 布 rweibull(n,shape,scale-1) 
Cauchy 分 布 rcauchy(n,location-0,scale-1) 
beta 分 布 rbeta(n,shapel,shape2) 
S(tudent) 分 布 rt(n,df) 
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Fisher-Snedecor rf(n,df1,df2) 

Pearson rchisq(n,df) 

二 项 式 分 布 rbinom(n,size,prob) 

多 项 式 分 布 rmultinom(n,size,prob) 

几何 分 布 rgeom(n,prob) 
hypergeometric rhyper(nn,m,n,k) 

logistic rlogis(n,location=0,scale=1) 
lognormal rinorm(n,meanlog=0,sdlog=1) 
negative binomial rnbinom(n,size,prob) 

uniform runif(numin-0,max-1) 
Wilcoxon's statistics rwilcox(nn,m,n),rsignrank(nn,n) 
对 这 些 函 数 的 调用 格式 是 : 前 级 + 函数 名 。 

前 缀 规则 如 下 : 

密度 函数 : d 


累计 概率 分 布 函 数 : p 
分 布 函 数 的 反 函 数 : q 
相同 分 布 的 随机 数 : r 


64 多 变量 分 析 


多 变量 分 析 是 统计 分 析 方 法 中 的 一 种 ， 通 常 应 用 于 数据 同时 存在 多 个 变量 (因素 、 指 标 ) 
的 场景 ,是 对 单 变量 统计 分 析 的 发 展 。 


6.4. 多 变量 数据 分 析 
多 变量 数据 分 析 也 称 为 多 元 数据 分 析 ， 是 指 对 多 个 变量 同时 进行 分 析 和 可 视 化 操作 。 


1. 求职 情况 散 点 图 矩阵 

fk R 语言 中 ， 当 和 A 是 一 个 数值 型 矩阵 或 数据 框 时 ， 可 使 用 pairs(A) 语句 绘制 两 列 之 间 的 
散 点 图 和 矩阵。 下 面 以 求职 情况 为 例 ， 讲 解 如 何 使 用 散 点 图 矩阵 来 展示 多 变量 数据 ， 表 6-3 为 
第 二 季度 市 场 求 职 指数 情况 表 。 


表 6-3 第 二 季度 市 场 求职 指数 情况 表 


求职 人 数 绝对 求职 指数 相对 求职 指数 
oum mw ] 





wwaibbt.com (10 00 B HU 


190 sj 第 三 部 分 统计 分 析 实 战 篇 


求职 人 数 绝对 求职 指数 


( 续 ) 
相对 求职 指数 





输入 以 下 R 代码 对 表 6-3 的 求职 数据 进行 分 析 : 


> ejdgz«-read.csv("ejdgz.csv") 





> ejdqz 
年 度 求职 人 数 绝对 求职 指数 相对 求职 指数 

1 2008 年 3045412 100 100 
2 2009 4 3413202 142 112 
3 20104 3902961 128 121 
4 20114 3675531 121 106 
5 20124 3765853 124 107 
6 2013 4 3562515 117 100 
7 20144 3350834 110 94 
> pairs(ejdqz) # 绘制 散 点 图 和 矩阵， 结果 如 图 6-17 所 示 











K 6-3 中 求职 数据 的 散 点 图 和 矩阵 如 图 6-17 所 示 。 


查看 散 点 图 矩阵 有 以 下 两 种 方式 : 


1) 首先 ， 固 定 代表 某 一 变量 的 某 一 列 〈 或 代表 某 些 变量 的 某 几 列 )， 然 后 查看 与 代表 其 他 
某 变量 的 某 一 行 (或 代表 其 他 变量 的 某 几 行 ) 交叉 处 的 图 。 


2) 首先 ， 固 定 代 表 某 一 变量 的 某 
一 行 〈 或 代表 某 些 变量 的 某 几 行 )， 然 
后 查看 与 代表 其 他 某 变量 的 某 一 列 (或 
代表 其 他 变量 的 某 几 列 ) 交叉 处 的 图 。 

例如 ， 可 以 定位 于 年 度 ， 假 设 需 
要 查看 图 6-17 所 示 的 2012 年 的 数据 ， 
就 将 目光 定位 于 第 一 行 ， 求职 人 数 接近 
380 万 ， 而 绝对 求职 指数 略 高 于 120， 
相对 求职 指数 在 105 到 110 之 间 。 又 比 
如 假设 需要 查看 求职 人 数 在 340 万 以 
上 ， 绝 对 求职 指数 在 115 以 上 的 年 份 ， 
这 样 就 定位 于 求职 人 数 和 年 份 ， 先 锁定 
于 第 1 列 和 第 3 列 ， 在 第 2 列 (求职 人 
数 ) 的 第 1 行 找到 340 万 以 上 (刻度 从 
左 到 右 数 的 第 2 个 位 置 以 右 ) 的 部 分 ， 
将 该 部 分 设 为 A 区 , 第 3 列 (绝对 求 
职 指 数 ) 的 第 1 行 找到 115 万 以 上 (下 
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图 6-17 ”求职 散 点 图 矩阵 
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面 最 后 一 行 绝对 求职 指数 列 对 应 的 刻度 表 上 ， 从 左 到 右 数 第 4 个 位 置 以 右 ) 的 部 分 ， 将 该 部 分 
设 为 B 区 , 在 A 区 和 B 区 分 别 可 以 找到 3 个 点 ,A 区 和 B 区 的 3 个 点 互相 一 一 对 应 ,这 3 个 
点 都 属于 A、B 两 个 区 的 共同 点 ， 查 找 这 3 个 点 对 应 的 年 份 (右上 角 的 年 份 刻度 表 ) 为 2010、 
2011、2012。 如 果 A 区 和 B 区 仅 能 找到 两 个 共同 点 ， 那 么 就 查找 这 两 个 共同 点 所 对 应 的 年 份 。 

分 析 图 6-17 可 以 看 出 ，2008 年 到 2010 年 期 间 的 求职 指数 在 上 升 ， 市 场 求职 人 数 出 现 了 
扩张 态势 ， 在 经 历 2011 年 到 2012 年 的 小 波动 后 ， 从 2012 年 开始 相对 求职 指数 在 逐年 下 降 ， 
市 场 求 职 人 数 呈 现 收缩 态势 。 


2. 学 生成 绩 散 点 图 矩阵 
首先 ， 输 入 如 下 的 R 代码 加 载 并 显示 学 生成 绩 数据 : 


> source«-read.csv("xscj.csv") 
> Source 


学 号 期 末 考 试 平时 成 绩 性 别 
1 201 60 74 1 
2 202 66 64 1 
3 203 91 82 0 
4 204 94 49 0 
5 205 60 88 0 
6 206 48 48 0 
7 207 74 84 0 
8 208 45 35 0 
9 209 97 89 1 
10 210 74 98 0 
ii 211 67 64 0 
12 212 50 50 0 
i3 213 85 94 1 
14 214 70 64 0 





然后 ， 绘 制 散 点 图 和 矩阵， 代码 如 下 : 


> pairs(source)# 如 图 6-18 所 示 ， 
性 别 为 则 表示 男 ， 性 别 为 0 则 表示 女 。 

学 生成 绩 散 点 图 矩阵 如 图 6-18 
所 示 。 

从 图 6-18 可 以 看 出 ， 第 3 行 第 2 
列 的 散 点 图 表明 : 平时 成 绩 与 期 末 考 
试 成 绩 有 很 大 的 线性 相关 性 ， 平 时 成 
绩 较 好 的 ， 期 末 考 试 成 绩 也 较 好 ; 平 
时 成 绩 较 差 的 ， 期 末 考 试 成 绩 普 遍 也 
较 差 。 观 察 第 3 行 第 4 列 的 散 点 图 ， 
可 以 看 到 男生 (性别 为 1 ) 的 成 绩 分 布 上 
比较 均匀 ， 范 围 大 致 为 40 分 到 95 分 ， 图 6-18 ”学生 成绩 散 点 图 和 矩阵 
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而 女生 (性 别 为 0) 的 成 绩 分 布 则 集中 在 两 部 分 ， 第 一 部 分 为 60 分 以 下 不 及 格 的 ， 这 部 分 的 
比例 相对 于 第 二 部 分 略 小 ， 第 二 部 分 集中 在 80 分 以 上 ， 这 部 分 的 比例 较 大 。 


3. 学 生成 绩 协同 图 

协同 图 ( coplot) 是 一 种 多 变量 的 探索 性 分 析 图 形 ，R 语句 的 基本 形式 为 coplot(y~x|z)， 
其 中 x 和 y 是 数值 型 向 量 , z 是 同 长 度 的 因子 ， 对 于 z 的 每 一 水 平 ， 均 绘制 相应 组 的 x 和 y 
的 散 点 图 。 下 面 按 性 别 分 组 来 绘制 学 生成 绩 的 协同 图 。 

Hs, 设置 因子 ，R 代码 如 下 : 


> Sourcec«-read.csv("xscj.csv") 

> attach (source) 

> factor ( 性别 ,labels = c(" "," E "))->sex 

> sex 

[1] 男男女女 女 女 女 女 男女 女 女 男女 女 女 男女 男 男 男 男 男 男 
[25] 男女 女 女 女 男 男 男 男 男女 女 女 男 男 女 男 女 男 男 男 男 男 


Levels: X BÀ 

然后 ， 以 性 别 来 分 组 ， 绘 制图 形 ，R 代码 如 下 : 

> coplot (平时 成 绩 ~ MRAR |sex) 

结果 如 图 6-19 所 示 。 

从 图 6-19 可 以 看 出 ， 男 生 的 平时 成 绩 与 期 末 考 试 成 绩 更 成 线性 关系 ， 若 男生 平时 成 绩 


不 错 ， 期 末 考 试 的 成 绩 也 不 错 。 而 女生 对 于 这 点 则 不 是 非常 明显 ， 尤 其 是 在 平时 成 绩 及 格 的 
情况 下 ， 平 时 成 绩 好 并 不 意味 着 期 末 考 试 的 成 绩 一 定 会 好 。 


4. 学 生成 绩 点 图 
首先 ， 设 置 因子 ，R 代码 如 下 所 示 : 


> Ssource«-read.csv("xscj.csv") 
> attach(source) 
> factor(cut (平时 成 绩 ，5))->pjcj 


然后 ， 分 区 段 绘制 全 部 学 生平 时 成 绩 的 点 图 : 


> dotchart (table (pjcj)) 
结果 如 图 6-20 所 示 。 


5. 产品 销量 三 维 图 
首先 ， 读 人 产品 销量 数据 ，R 代码 如 下 : 


> goods«-read.csv("goods.csv") 


> goods 

地 区 编码 月 份 销量 
1 1 1 1200 
2 1 2 3210 
3 1 3 A23 
4 1 4 1111 
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5 1 5 688 
6 1 6 2110 
E! 1: 7 1223 
8 i 8 6894 
9 1 9 1470 
10 1 10 1071 
13 1 11 2250 
12 1 12 X241 
13 2 1 2222 
14 2 2 1500 
15 2 3 3200 
16 2 4 1580 
17 2 5 5562 
>attach (goods) 


(86.2, 99.1] 





50 60 70 80 90 100 (73.4, 86.2] 





E E 


(60.6, 73.4] 


(47.8, 60.6] 


(34.9, 47.8] 


50 60 70 80 90 100 


期 未 考试 








图 6-19 ”成绩 协同 图 图 6-20 平时 成 绩 的 点 图 
然后 ， 检 查 是 否 安 装 scatterplot3d 库 ， 安 装 过 程 如 下 : 


> source("http://bioconductor.org/biocLite.R") 
> biocLite("scatterplot3d") 


再 然后 ， 显 示 三 维 数据 图 : 


> library (scatterplot3d) 
> scatterplot3d( 地 区 编码 , 月份, 销量， highlight.3d-TRUE,pch-20,col.axis-"blue", 
col.grid-"lightblue",grid-TRUE,type-"h",main-" 销量 一 览 表 ",1lab=c(4,12)) 


结果 如 图 6-21 所 示 。 
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图 6-21 销量 一 览 表 


由 图 6-21 可 见 ， 销 量 比较 好 的 主要 是 地 区 1 的 8 月 、 地 区 2 的 5 月 与 6 月 ,地 区 3 的 
销量 不 容 乐 观 ， 处 于 滞销 状态 ， 地 区 4 的 销量 稍微 好 一 点 ， 但 销售 情况 仍然 很 差 ， 地 区 1 与 
地 区 2 的 销量 不 错 ， 最 高 销量 接近 7000。 

最 后 分 析 一 下 1 号 地 区 的 销售 形势 ，R 代码 如 下 : 


> subset (goods, 地 区 编码 ==1)->diqu1 
> diqu1[2:3]-»nolfx 
» nolfx 
Ht 销量 

1200 
3210 

123 
LEIK 

688 
2110 
WEAS 
6894 
1470 
10 10 1071 
1 11 2250 
12 12 1241 
> plot(nolfx,type-"o",main-"1 号 地 区 形势 " ) 
> abline(h=mean(nolfxs 销量 ) ) 
> axis(4,mean(nolfx$ 销量 ) ) 


结果 如 图 6-22 所 示 。 
观察 图 6-22 可 以 看 出 ，1 号 地 区 在 2 月 和 8 月 的 销售 情况 不 错 ， 而 3 月 和 5 月 的 销售 形 
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势 则 不 容 乐观 。 
6. 产品 销量 气泡 图 


气泡 图 是 一 个 将 点 表示 为 圆圈 
的 散 点 图 ， 与 XY 散 点 图 类 似 ， 但 可 
表现 的 数据 信息 量 更 多 ， 最 典型 的 应 
用 是 通过 更 改 气泡 的 大 小 和 颜色 ,使 
数据 的 探索 更 加 方便 。 在 R 语言 中 ， 
用 symbols() 函数 作 气 泡 图 ， 具 体 的 

Symbols (x, y-NULL, circles, 
Squares, rectangles, stars, 
thermometers, boxplots, inches-TRUE, 
add-FALSE, fg-par ("col"), bg-NA, 


xlab-NULL, ylab-zNULL, main-NULL, 
Xlim-NULL, ylim-NULL, ...) 2 = 6 8 10 12 


以 刚才 的 产品 销量 为 例 ， 输 入 以 月 份 
下 R 语言 代码 绘制 产品 销量 气泡 图 : 和 cual 

> symbols( 月份， 地 区 编码 ,circles = 销量 ,xaxt-"n",yaxt-"n",inches = .55)$ 绘制 图， 1 
不 显示 刻度 。 

> axis(1,at-1:12,1as-3)  #X 轴 刻度 

> axis(2,at=1:4,las=3) #y 轴 刻 度 


结果 如 图 6-23 所 示 。 
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图 6-23 产品 销量 气泡 图 


观察 图 6-23 可 以 看 出 ,代表 1 号 地 区 8 月 销量 的 气泡 最 大 ， 表 示 销 量 最 好 ，2 号 地 区 的 
5 月 和 6 月 的 销量 差不多 ， 且 都 比较 大 。 


wwaibbt.com (10 80 0 U 


196 4» 第 三 部 分 “统计 分 析 实 战 篇 


7. 产品 销量 星 图 

星 图 的 绘制 方法 如 下 : 

1) 若 设 变量 数目 为 n 个 ， 则 将 圆周 n 等 分 ， 连 接 圆 心 和 这 n 个 分 点 ， 将 形成 条 半径 ， 
这 些 半径 依次 定义 为 变量 的 坐标 轴 ， 标 以 适当 的 刻度 。 

2) 对 给 定 的 一 次 观测 值 ， 把 n 个 变量 值 分 别 取 在 相应 的 坐标 轴 上 ， 将 它们 连接 成 个 圆 弧 。 

下 面 使 用 星 图 来 分 析 4 个 地 区 各 月 份 的 销量 ，R 代码 如 下 : 

首先 ， 调 用 和 整理 数据 。 


> goods«-read.csv("goods.csv") 


> goods 
地 区 编码 月 份 销量 

1 1 1 1200 
2 1 2 3210 
3 1 3 3123 
4 1 4 1111 
5 1 5 688 
6 E! 6 2110 
E] ay 了 1123 
8 o 8 6894 
9 L 9 1470 
10 1 10 1071 
11 1 11 2250 
12 1 12 1241 
13 2 1 2222 
14 2 2 1500 


> yue4<-subset (goodas， 地 区 编码 --4, select = c( 销量 )) 
> yue3<-subset (goods， 地 区 编码 ==3，select = c( 销量 )) 
> yue2<-subset (goods， 地 区 编码 ==2，select = c( 销量 )) 
> yuel<-subset (goods， 地 区 编码 ==1，select = c( 销量 )) 
> row.names (mygoods)<-c(1:4) 
> mygoods 

1 2 3 4 5 6 7 8 9 
1 1200 3210 123 LAL 688 2110 1123 6894 


10 11 12 
1470 1071 2250 1241 
2 2222 1500 3200 1580 5562 5841 1860 981 
658 3789 1020 1120 
3 2144 2243 134 235 486 985 235 1020 
558 995 886 398 
4 1820 1588 5440 470 1500 720 845 476 
984 745 368 872 
I 
3 
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图 6-24 产品 销量 星 图 





然后 调用 stars 函数 绘制 图 形 ， 通 过 将 draw. 
segments 参数 设置 为 TRUE， 指 定 绘制 的 星 图 是 由 圆 弧 
连接 而 成 的 。 


>stars (mygoods,draw.segments-TRUE) 


结果 如 图 6-24 所 示 。 
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观察 图 6-24 可 以 看 出 ，1 号 地 区 和 2 号 地 区 的 销量 最 好 。 


6.4.2 ”多 元 数据 相关 性 分 析 


1. 皮尔 森 相 关系 数 与 协 方差 

C1) 皮尔 森 相 关系 数 

皮尔 森 相 关系 数 ( Pearson correlation coefficient) 也 称 皮尔 森 积 矩 相 关系 数 ， 是 一 种 线性 相关 
系数 ， 皮 尔 森 相关 系数 是 用 来 反映 两 个 变量 线性 相关 程度 的 统计 量 ， 用 于 度量 两 个 变量 和 Y 
之 间 的 相关 (线性 相关 )， 如 表 6-4 所 示 。 其 值 介 于 -1 ~ 1 之 间 ， 负 数 为 负 相 关 ， 正 数 为 正 相 关 。 


表 6-4 皮尔 森 相 关系 数 
皮尔 森 相 关系 数 正 值 


0.0 ~ 0.09 
0.1 ~ 0.3 
0.3 ~ 0.5 


0.5 ~ 1.0 


皮尔 森 相关 系数 的 计算 公式 如 下 : 
pay EED EAA) 


0,0, 0,0, 
上 式 中 ,分子 是 协 方差 ,分 子 是 两 个 变量 标准 差 的 乘积 ,XY 和 YY 的 标准 差 都 不 为 0。 
HF x= E(X), ox! = EX-EQOY']-EQC)-E'(X), 了 也 类 似 , 并且 

E[(X-EQO)(Y-E(Y))]-EQQY)-EQXO EY) 
因此 ， 也 可 将 皮尔 森 相 关系 数 的 计算 公式 写成 如 下 形式 : 

m E(XY)-EQOE(Y) 

™ [E@-EW EP-EN 

皮尔 森 相 关系 数 是 对 称 的 ， 即 : pxy= pyx。 
此 外 ， 可 基于 样本 对 协 方差 和 标准 差 进 行 估计 ， 可 以 得 到 样本 相关 系数 + 如下: 


2. (X - X)(Y,- Y) 


[3 ax» | oy 


利用 样本 相关 系数 推断 总 体 中 的 两 个 变量 是 否 相 关 ， 可 以 用 t 统 计量 对 总 体 相 关系 数 为 
0 的 原 假 设 进行 检验 。 若 t+ 检验 显 著 ， 则 拒绝 原 假设 ， 即 两 个 变量 是 线性 相关 的 ; 若 t 检 验 不 
显著 ， 则 不 能 拒绝 原 假设 ， 即 两 个 变量 不 是 线性 相关 的 。 

(2) 协 方差 

协 方差 表示 的 是 两 个 变量 总 体 误差 的 方差 ， 这 与 只 表示 一 个 变量 误差 的 方差 不 同 。 如 果 
两 个 变量 的 变化 趋势 一 致 ， 也 就 是 说 如 果 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 也 大 于 自身 的 
期 望 值 ， 那 么 这 两 个 变量 之 间 的 协 方差 就 是 正 值 。 如 果 两 个 变量 的 变化 趋势 相反 ， 即 其 中 一 个 
大 于 自身 的 期 望 值 ， 另 外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 这 两 个 变量 之 间 的 协 方差 就 是 负 值 。 
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(3) 实例 剖析 
下 面 以 某 商 品 的 销量 及 原料 分 析 数 据 为 例 ， 分 析 原 料 对 某 商品 销量 的 影响 ，R 代码 如 下 : 


> read.csv("ABCgoods.csv")-»mygoods 
> mygoods 


A 原料 BB 原料 C 原 料 商品 销量 


1 0.85 0.13 0.02 4500 
2 0.33 0.23 0.44 1800 
3 10.64 20.24 0.12 3900 
& 0.38 20.232 0.50 1000 
5 0.10 0.20 0.70 740 
6 0.28 0.17 0.55 990 
7 0.15 0.80 0.05 910 
8 0.18 0.70 0.12 930 


> cov(mygoods)-»myanalysis.covt4 cov X WJ 48 E 
> cor(mygoods)-»myanalysis.cor4 cor 为 相关 系数 矩阵 
> myanalysis.cov 


A 原料 BB 原料 C 原 料 商品 销量 
A 原料 0.06716964 -0.03470179 -0.03246786 368.2161 
B 原 料 -0.03470179 0.07174107 . -0.03703929 -147.3554 
c 原料 -0.03246786 -0.03703929 0.06950714 -220.8607 


商品 销量 368.21607143 -147.35535714 -220.86071429 2235941.0714 
> myanalysis.cor 


A 原料 B 原 料 C 原 料 商品 销量 
A 原料 1.0000000 -0.4998980 -0.4751737 0.9501366 
B 原料 -0.4998980 1.0000000 -0.5245223 -0.3679187 
C 原料 -0.4751737 -0.5245223 1.0000000 -0.5602393 


商品 销量 0.9501366 -0.3679187 -0.5602393 1.0000000 


在 R 中 可 调用 cor.test 进行 检测 ， 它 默认 采用 pearson 检验 (method 参数 )， 置 信 区 间 水 
平 默认 为 0.95(conf.level),p 值 <0.05 则 拒绝 原 假 设 ， 并 认为 两 变量 线性 相关 。 代 码 如 下 所 示 : 


> cor.test (~A 原 料 +B 原 料 , data-mygoods) 
Pearson's product-moment correlation 


data: A 原料 and B 原 料 
t = -1.4138, df = 6, p-value = 0.2071 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8907805  0.3161398 
sample estimates: 
cor 
-0.499898 
> cor.test(-A Kf «c I. ,data=mygoods) 


Pearson's product-moment correlation 


data: A 原料 ana c ER 

t - -1.3228, df - 6, p-value - 0.2341 

alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 

-0.8838848  0.3450297 
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sample estimates: 
cor 
-0.4751737 


> cor.test (~A 原 料 + 商品 销量 ,data=mygoods) 


Pearson's product-moment correlation 


data: A 原料 and 商品 销量 
t = 7.4634, df = 6, p-value = 0.0002985 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.7427838 0.9911796 
sample estimates: 
cor 
0.9501366 


> cor.test(~C 原 料 + 商品 销量 ,data-mygoods) 


Pearson's product-moment correlation 


data: CC 原料 and 商品 销量 
t = -1.6567, df = 6, p-value = 0.1487 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.9068866 0.2386486 
sample estimates: 
cor 
-0.5602393 


> cor.cest(~B 原 料 + 商 品 销量 ,data=mygoods) 


Pearson's product-moment correlation 


data: B and 商品 销量 
t = -0.9692, df = 6, p-value = 0.3699 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8517618 0.4546201 
sample estimates: 
cor 
-0.3679187 
> cor.test(-B 原料 +C 原 料 , data-mygoods) 


Pearson's product-moment correlation 


data: B 原 料 and C 原料 
t = -1.5091, df < 6, p-value = 0.182 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8974739  Á0.2857795 
sample estimates: 
Gor 
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-0.5245223 


分 析 以 上 cor.test 的 调用 结果 ， 可 以 看 出 : 
口 A 原料 、B 原料 、C 原料 互相 线性 无 关 ， 应 属于 不 需要 按 指定 配 比 配 置 的 。 
口 A 原料 与 商品 销量 线性 相关 。 


2. 影响 因素 分 组 
下 面 利 用 相关 性 分 析 ， 来 分 析 某 类 商品 的 网 络 销售 情况 ， 并 将 影响 因素 分 组 。 
首先 ， 读 和 人 数据 : 


> read.csv("sales2.csv")-»mysales 
> mysales 


价格 好 评 率 月 平均 评论 数 包装 精美 程度 .1.3. 品牌 知名 度 .1.3. 月 平均 销量 


1 50 94 150 3 3 350 
2 150 68 120 2 2 290 
3 190 88 100 2 2 160 
4 1500 85 5 1 1 40 
5 69 98 40 2 2 64 
6 800 73 3 2 1 20 
7 32 88 180 3 3 400 
8 500 90 6 2 1 10 
9 182 68 19 2 2 70 
10 23 89 190 3 2 500 
然后 ， 计 算 相 关系 数 : 
> cor (mysales) 
价格 好 评 率 月 平均 评论 数 包装 精美 程度 .1.3. 

价格 1.0000000 -0.1648994 . -0.6538897 -0.7769090 
好 评 率 -0.1648994 1.0000000 0.2529134 0.2933271 
月 平均 评论 数 -0.6538897 0.2529134 1.0000000 0.8197505 
包装 精美 程度 .1.3. -0.7769090 0.2933271 0.8197505 1.0000000 
品牌 知名 度 .1.3. -0.7531132 0.2556607 0.7921685 0.7619048 
月 平均 销量 -0.5897317 0;1777546 0.9798662 0.8104570 

品牌 知名 度 .1.3. 月 平均 销量 
价格 -0.7531132 -0.5897317 
好 评 率 0.2556607 0.1777546 
月 平均 评论 数 0.7921685 0.9798662 
包装 精美 程度 ,1 .3. 0.7619048 0.8104570 
品牌 知名 度 .1.3. 1.0000000 0.7291934 
月 平均 销量 0.7291934 1.0000000 


再 然后 ， 对 各 个 指标 的 相关 度 进行 分 析 。 按 相关 度 将 指标 进行 分 组 ， 使 相关 系数 高 的 指 
标 归 为 同一 组 ， 找 到 出 现 除开 1 以 外 的 绝对 值 最 大 相关 度 
相关 系数 为 0.979 866 2， 包 装 精 美 程度 .1.3. 与 月 平均 销量 的 相关 系数 为 0.810 457 0, 将 这 3 
个 指标 归 为 一 组 ， 然 后 找到 价格 与 品牌 知名 度 的 相关 系数 0.753 113 2， 将 这 两 个 指标 归 为 一 





组 ， 好评 率 为 一 组 ， 这 样 一 共 分 为 了 三 组 。 


将 每 一 个 组 内 部 的 每 个 指标 的 权 值 设 为 不 同 的 值 (保证 权 值 之 和 为 1 )， 分 别 设置 如 下 : 
1) 第 1 组 中 月 平均 销量 的 权 值 为 0.8， 月 平均 评论 数 的 权 值 为 0.15， 包 装 精 美 程 
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BE .1.3. 的 权 值 为 0.05 (计算 时 为 3- 包装 精美 程度 ， 因 为 包装 精美 程度 数字 越 小 ， 表 示 越 精 
美 ， 指 标 是 这 样 设 计 的 )。 

2) 第 2 组 ， 价 格 的 权 值 为 0.8， 品 牌 知名 度 .1.3. 的 权 值 为 0.2 (计算 时 为 3- 品牌 知名 度 ， 
因为 品牌 知名 度数 字 越 小 ， 表 示 越 知名 ， 指 标 是 这 样 设计 的 ) 

3) 第 3 组 就 一 个 指标 好 评 率 。 不 设 权 值 。 

最 后 ， 计 算 这 3 组 的 得 分 。 


> attach (mysales) 
> groupi«-( 月 平均 评论 数 *0.15+(3- 包装 精美 程度 .1.3.)*0.05+ 月 平均 销量 *0.8)/3 
> group2«-((3- 品牌 知名 度 .1.3.)*0.2+ 价格 *0.8)/2 
> group3<- 好 评 率 
> myavg= (groupl*0.45+group2*0.1+g9roup3*0.45)/3 
> names (myavg)«-c(1:10) 
> sort (myavg,decreasing-TRUE) 
10 4 p ii 2 3 6 8 
35.08500 34.39917 30.97667 29.89167 24.70583 22.88917 22.44833 20.62083 
5 9 


18.48583 15.57500 
分 析 sort 函数 的 结果 ， 可 看 出 ， 按 综合 排名 ， 从 高 到 低 的 商品 序号 如 下 : 
10 4 7 1 2 3 6 8 5 9 


6.5 ”小结 


对 于 统计 中 的 描述 性 分 析 来 说 ， 最 好 的 学 习 方 法 就 是 实践 ， 光 看 理论 比较 难于 理解 。 本 
章 首先 以 实例 的 形式 分 折 了 正 态 分 布 函数 、 峰 度 系数 、 累 计 分 布 概率 、 概 率 密度 函数 及 曲 
线 、 分 位 点 、 正 态 检 验 与 分 布 拟 合 等 数据 统计 指标 ; 然后 介绍 了 正 态 分 布 等 分 布 模型 ; 最 后 ， 
讲解 了 多 变量 数据 分 析 和 可 视 化 、 数 据 相 关 性 分 析 等 知识 。 


思考 题 


(1) 下 载 本 书 例子 中 的 美国 地 震 台数 据 earthquakes.csv， 对 于 其 中 震 深 Depth 进行 分 析 ， 
绘制 累计 分 布 概率 的 散 点 图 。 

(2) 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 对 于 其 中 震级 Magnitude 进行 
分 析 ， 分析 概 率 密度 。 

(3 ) 下 载 本 书 例子 中 的 全 国 就 业 调查 情况 数据 youxiangz.csv， 分 析 “ 平 均 劳 动 报酬 ”的 
正 态 分 析 函 数 、 峰 度 系数 、 累 计 分 布 概率 、 概 率 密度 函数 及 曲线 、 直 方 图 。 

(4) 下 载 本 书 例 子 中 的 商品 销售 情况 数据 sales2.csv， 以 价格 为 X 轴 ， 以 月 平均 评论 数 
为 Y 轴 ， 绘 制 关 于 月 平均 销量 的 气泡 图 ， 分 析 价 格 和 月 平均 评论 数 处 于 哪些 区 间 内 时 ， 月 平 
均 销 量 较 好 。 

(5) 下 载 本 书 例子 中 的 学 生成 绩 数据 xscj.csv， 以 性 别 、 学 号 、 期 末 考 试 为 指标 ， 绘 制 
关于 期 末 考 试 的 三 维 图 ， 分 析 哪 些 学 生成 绩 比 较 好 。 
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假设 检验 与 回归 模型 案例 


7.1 假设 检验 


假设 检验 是 除 参数 估计 之 外 的 另 一 类 重要 的 统计 推 新 间 题 ， 它 认为 小 概率 事件 在 一 次 
试验 中 几乎 是 不 可 能 发 生 的 ， 即 : 对 总 体 的 某 个 假设 是 真实 的 ， 那 么 不 利于 或 不 能 支持 这 一 
假设 的 事件 在 一 次 试验 中 几乎 是 不 可 能 发 生 的 ; 要 是 在 一 次 试验 中 小 概率 事件 发 生 了 ， 那 么 
就 有 理由 怀疑 这 一 假设 的 真实 性 ， 拒 绝 这 一 假设 。 具 体 来 说 ， 想 检验 其 正确 性 的 称 为 零 假设 ， 
( null hypothesis)， 零 假设 通常 反映 的 是 研究 者 对 未 知 参数 的 看 法 ， 相 对 于 零 假 设 的 其 他 论述 
则 是 对 立 假设 (alternative hypothesis)， 它 反映 了 执行 检验 者 对 参数 可 能 数值 的 对 立 的 看 法 ， 
也 就 是 说 ， 对 立 假设 通常 才 是 研究 者 最 想 知道 的 。 

假设 检验 的 过 程 ， 可 以 用 法 庭审 理 的 例子 来 说 明 : 如 果 现 在 法 庭 上 有 一 名 被 告 ， 假 设 该 
被 告 是 清白 的 ， 那 么 检察 官 必 须要 提出 足够 的 证 据 证 明 被 告 的 确 有 罪 。 在 证 明 被 告 有 罪 前 ， 
被 告 是 被 假设 为 清白 的 ， 假 设 被 告 是 清白 的 这 个 假设 ， 就 相当 于 零 假 设 ， 假 设 被 告 是 有 罪 的 
这 个 假设 ， 则 是 对 立 假设 。 检 察 官 提出 的 证 据 ， 是 否 足 以 确定 该 被 告 有 罪 ， 则 需要 经 过 检验 。 


7.1.1 二 项 分 布 假设 检验 


考察 由 n 次 随机 试验 组 成 的 随机 现象 ， 它 要 同时 满足 以 下 条 件 : 

口 重复 进行 n 次 随机 试验 。 

口 n 次 试验 相互 独立 。 

口 每 次 试验 仅 有 两 个 可 能 的 结果 。 

口 每 次 试验 成 功 的 概率 为 p， 失 败 的 概率 为 1-P。 

在 上 述 四 个 条 件 下 ,假设 XX 表示 n 次 独立 重复 试验 中 成 功 出 现 的 次 数 ， 显 然 卫 是 可 以 取 
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0，1，…，, n AE nt 个 值 的 离散 随机 变量 ， 这 个 分 布 称 为 二 项 分 布 ， 记 为 B(n,p)。 
在 二 项 分 布 中 , 设 有 k 次 成 功 和 n-k 次 失败 ,次 成 功 可 以 出 现 于 n 次 试验 的 任何 一 次 ， 
2 次 试验 中 正好 得 到 大 次 成 功 的 概率 如 下 : 


Pr(K=k)= (5 pa-p" 


在 假设 检验 中 ， 经 常 遇 到 非 正 态 总 体 的 统计 数据 ， 这 类 数据 可 使 用 二 项 分 布 的 总 体 假设 
检验 方法 ， 下 面 以 实例 进行 讲解 。 

1. 游戏 策略 调整 

某 游戏 的 某 区 域内 经 常 发 生 暴 力 PK 事件 ， 从 而 给 在 这 个 区 域内 做 任务 的 新 手 玩家 和 某 
些 老 玩家 带 来 了 很 多 困扰 ， 以 往 发 生 这 类 事件 的 概率 为 25%， 对 这 个 区 域 的 游戏 策略 进行 调 
整 后 ， 随 机 抽取 了 300 多 个 玩家 进行 测试 ， 结 果 有 20 个 被 迫 卷 人 暴力 PKE， 那 么 这 个 游戏 策 
略 的 调整 是 否 有 效 ? 


> binom.test(x-20,n-300,p-0.25,alternative-"less") 
Exact binomial test 


data: 20 and 300 
number of successes = 20, number of trials = 300, p-value < 2.2e-16 
alternative hypothesis: true probability of success is less than 0.25 
95 percent confidence interval: 
0.00000000 0.09540198 
sample estimates: 
probability of success 
0.06666667 
这 里 将 原 假设 H0 设 为 p m 0.25， 而 备 择 假设 H1 设 为 p<0.25。 观 察 以 上 结果 ， 在 9596 
的 置信 率 基 础 上 , p 值 <2.2e-16<0.05， 因 此 可 以 认为 该 游戏 策略 的 调整 对 维护 这 个 区 域 的 秩 
序 起 到 了 一 定 的 效果 。 
2. 游戏 宝石 出 产检 测 
某 网 络 游戏 中 有 一 区 域 为 宝石 采矿 区 ， 玩 家 在 此 开采 宝石 的 比例 应 为 高 级 宝石 :中 级 宝 
石 :低级 宝石 =3 : 11 : 23， 抽取 671 个 玩家 的 采矿 记录 ， 开 采 数 量 为 70 : 190 : 411， 请 问 实 
际 出 产 比 例 是 否 符合 理论 要 求 ? 


> chisq.test(c(70,190,411),p-c(3,11,23) /37) 
Chi-squared test for given probabilities 


data:  c(70, 190, 411) 
X-squared - 5.0106, df - 2, p-value - 0.08165 


观察 以 上 结果 , p 值 为 0.08165, 结果 大 于 0.05 接受 原 假设 ， 实 际 出 产 比 例 符 合理 论 
要 求 。 
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7.1.2 ”数据 分 布 检验 


1. 正 态 分 布 检测 
使 用 shapiro.test 函数 可 检测 数据 的 正 态 分 布 。 例 如 ， 设 显著 性 水 平 为 0.05， 检查 以 下 数 
据 是 否 为 正 态 分 布 。 


12,22,67,89,56,10,124,235,77,88,66,79,80,82 


R 代码 如 下 : 


> x«-c(12,22,67,89,56,10,124,235,77,88,66,79,80,82) 
» shapiro.test (x) 


Shapiro-Wilk normality test 


data: x 
W = 0.8173, p-value = 0.008236 


观察 以 上 结果 , p 值 小 于 显著 性 水 平 0.05， 因 此 可 拒绝 原 假设 ， 因 为 原 假设 为 符合 正 态 
分 布 ， 因 此 可 认为 该 数据 不 符合 正 态 分 布 。 
再 来 看 一 个 例子 ， 如 下 面 R 代码 所 示 : 


> shapiro.test (rnorm(100, mean = 5, sd = 3)) 
Shapiro-Wilk normality test 


data: rnorm(100, mean = 5, sd = 3) 
W = 0.9914, p-value = 0.7787 


观察 以 上 结果 , p 值 大 于 显著 性 水 平 0.05， 不 能 拒绝 原 假设 ， 因 此 可 认为 该 数据 符合 正 
态 分 布 。 


2. Kolmogorov-Smirnov 检验 

Kolmogorov-Smirnov 检验 ( K-S 检验 ) 基于 累积 分 布 函 数 ， 用 于 检验 一 个 经 验 分 布 是 否 
符合 某 种 理论 分 布 或 比较 两 个 经 验 分 布 是 否 有 显著 性 差异 。 下 面 以 对 某 后 台 服 务 程序 的 稳定 
性 检测 为 例 进行 讲解 。 

现 对 某 服务 器 的 某 后 台 服 务 程序 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 数 ， 
分 别 为 : 240、180、320、190、160、60、400、340， 经 估计 它 符合 4=1/290 的 指数 分 布 ， 下 
面 来 验证 一 下 稳定 性 的 分 布 : 

> ks.test(servtime,"pexp",1/290) 

One-sample Kolmogorov-Smirnov test 
data:  servtime 


D = 0.299, p-value = 0.394 
alternative hypothesis: two-sided 
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观察 以 上 结果 ，p 值 >0.05， 无 法 拒绝 原 假设 ， 因 此 无 故障 稳定 工作 小 时 数 符合 该 分 布 。 
提示 : R 语言 中 ，pexp 是 一 个 指数 分 布 函数 ， 指 数 分 布 有 以 下 系列 的 R PRÉC: 

口 dexp 给 出 了 密度 : dpexp(x,rate-1,t-0,log-FALSE) 

O pexp 给 出 了 分 布 函数 : ppexp(q,rate=1,t=0,lower.tail=TRUE,log.p=FALSE) 

口 qexp 给 出 了 分 位 数 功能 : qpexp(p.rate-1,t-0,lower.tail- TRUE,log.p-FALSE) 

口 rexp 给 出 了 随机 产生 的 偏离 : rpexp(n.rate-1,t-0) 


7.1.3” 正 态 总 体 均值 检验 

假设 某 游戏 服务 器 接受 游戏 客户 端 发 来 的 报告 ， 内 容 是 某 场 景 载 人 时 间 的 报告 ( 载 人 时 
间 符 合 正 态 分 布 )， 平 均 载 人 时 间 要 求 小 于 225。 现 提取 报告 的 部 分 数据 ， 检 验 载 人 时 间 是 否 
正常 ， 设 显著 性 水 平 为 0.05， 用 R 语言 分 析 ， 代 码 如 下 Ox 为 时 间 ): 


»3€-5(220,218,210,220,215,221,212,225,209,230,180,182,150,190,230,227,240,225) 
» t.test(x, alternative - "less", mu - 225) 


One Sample t-test 


data: x 

t£ = -2.5922, dE = 17, p-value = 0.009493 
alternative hypothesis: true mean is less than 225 
95 percent confidence interval: 

-Inf 220.5051 

sample estimates: 
mean of x 

211.3333 


观察 上 述 结果 , p 值 为 0.009 493， 小 于 显著 性 水 平 0.05， 有 理由 拒绝 原 假设 ， 原 假设 为 
平均 载 人 时 间 大 于 225， 因 此 ， 可 选择 备 择 假设 ， 即 : 平均 载 人 时 间 小 于 225. 
也 可 将 平均 载 人 时 间 大 于 225 设 为 备 择 假设 ， 而 平均 载 人 时 间 小 于 225 设 为 原 假设 ， 用 
R 语言 分 析 ， 代码 如 下 : 


> t.test(x, alternative = "greater", mu = 225) 
One Sample t-test 


data: x 
t = 2,5922, df = LT p-value = 0.9905 
alternative hypothesis: true mean is greater than 225 
95 percent confidence interval: 
202.1616 Inf 
sample estimates: 
mean of x 
211.3333 


观察 上 述 结果 , pX 0.9905， 大 于 显著 性 水 平 0.05， 无 法 拒绝 原 假设 ， 原 假设 为 平均 
载 和 时间 小 于 225， 因 此 ， 可 认为 平均 载 人 时 间 小 于 225， 载 入 时 间 正 常 。 
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7.1.4 JIRE 

列 联 表 是 观测 数据 按 两 个 或 更 多 个 属性 (定性 变量 ) 分 类 时 所 列 出 的 频数 表 。 比 如 : 对 
随机 抽取 的 1000 人 按 性 别 ( 男 或 女 ) 及 色觉 (正常 或 色盲 ) 两 个 属性 分 类 ， 可 以 得 到 如 表 7-1 
所 示 的 二 行 二 列 的 列 联 表 。 





下 面 以 满意 度 列 联 表 为 例 进 行 讲解 ， 表 7-2 是 某 类 商品 价格 与 客户 满意 度 的 列 联 表 。 
表 7-2 满意 度 与 价格 列 联 表 





可 通过 列 联 表 数 据 的 独立 性 对 价格 与 客户 满意 度 之 间 的 关系 进行 分 析 ， 在 R 语言 中 可 通 
过 chisq.test 函数 来 完成 检测 : 


> 0(20,56,34,10,33,21,32,66,24)-»x 
> c(3,3)-»dim(x) 


> X 

lah [4,2] Tead 
i15] 20 10 32 
[2,] 56 33 66 
[3,] 34 21 24 


> 
> chisq.test (x) 
Pearson's Chi-squared test 
data: x 
X-squared - 6.8985, df - 4, p-value - 0.1413 


观察 以 上 结果 ，p>0.05 说 明 不 拒绝 原 假 设 ， 两 个 变量 独立 无 关 ， 价 格 与 客户 的 满意 度 之 
间 没 有 关系 。 

此 外 ， 当 列 联 表 中 有 频数 低 于 4 时， 最 好 使 用 fisher 进行 精确 检测 。 例 如 : 某 网 上 商场 
对 某 种 高 档 商 品 进行 了 一 次 短期 的 测试 ， 验 证 自动 导购 系统 的 有 效 性 ， 商 场 分 别提 供 了 普通 
购买 通道 和 自动 导购 系统 通道 ， 表 7-3 为 该 测试 的 列 联 表 。 
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表 7-3 高 档 商品 测试 列 联 表 





对 表 7-3 的 数据 进行 fisher 检测 ，R 语言 代码 如 下 : 


> e1143,9,12)-»3x 
> dim(x)«-c(2,2) 
» fisher.test(x) 


Fisher's Exact Test for Count Data 


data: x 
p-value - 0.04614 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.8730177 33.8560814 
sample estimates: 
odds ratio 
4.662271 


> 


观察 以 上 结果 ，P<0.05 拒绝 原 假设 ， 因 此 认为 自动 导购 系统 有 效 ，odds ratio>l 表示 存 
在 正 相 关 关 系 ， 即 通过 自动 导购 系统 通道 进入 的 顾客 越 多 ， 该 商品 的 购买 率 就 越 大 。 


7.1.5 “符号 检测 


符号 检测 通过 观察 样本 值 与 总 体 中 某 个 位 置 (比如 中 位 数 ) 的 差 实现 ， 将 样本 观察 值 与 
总 体 中 位 数 的 差 之 间 的 关系 用 符号 表示 为 大 于 、 小 于 或 正 、 负 关系 ， 从 而 进行 检测 。 


1. 某 商 场 VIP 客户 信息 推送 

以 某 商 场 VIP 客户 广告 推送 为 例 ， 某 商场 需要 针对 某 类 商品 建立 该 类 商品 的 VIP 大 客户 ， 
以 便 定 期 向 该 类 客户 推送 相关 广告 。 客 户 服务 部 门 推荐 了 客户 A， 从 数据 库 中 随机 抽取 了 100 
个 客户 资料 ， 统 计 他 们 前 4 个 季度 的 平均 季 消 费 数据 (在 这 里 用 平均 随机 数 模拟 数据 )， 检 测 客 
P A 的 平均 季 消 费 是 否 处 于 中 上 水 平 (位 于 中 位 数 以 上 )。 首 先 ， 构造 数 据 ，R 语言 代码 如 下 : 


> sample(200:50000,100)-»sale 
> sale 
[1] 8447 13987 8809 44437 22973 28093 30594 28060 21101 45155 36128 30129 
[13] 556 33977 9283 35094 903 32885 11639 15533 29150 47368 44993 5376 
[25] 1869 15975 25120 33530 31767 41845 39623 3586 22671 16128 14814 24993 
[37] 45830 10349 43989 35650 45179 35282 27204 5485 22990 21475 14533 42852 
[49] 15986 28411 16683 15832 27207 19062 10256 34549 46159 16315 43097 40038 
[61] 27758 14936 26161 18694 25139 13208 26837 30171 13663 14082 46909 26498 
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[73] 7830 35810 15183 41769 8880 47928 13387 33231 28978 39486 6309 19344 
[85] 12935 41976 13429 16291 31159 33646 1742 48160 43169 40165 38915 24941 
[97] 25181 30077 19475 26836 

Š 


然后 , 使 用 sum(sale>29900) 表示 所 有 大 于 该 客户 平均 消费 水 平 的 样本 数 ， 进 行 binomtest 检测 : 
> binom.test (sum(sale>29900) ,length(sale),al="less") 
Exact binomial test 


data:  sum(sale > 29900) and length(sale) 
number of successes - 38, number of trials - 100, p-value - 0.01049 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4667535 
sample estimates: 
probability of success 
0.38 


> 
95 percent confidence interval: 
0.0000000 0.4667535 


3X!B, binom.test 使 用 的 是 二 项 分 布 B (100,1/2) 的 检测 ， 每 次 抽样 要 么 M>=M0, XA 
M<M0， 成 功 的 概率 为 /2， 即 在 中 位 数 以 上 ( 含 中 位 数 ) 和 中 位 数 以 下 的 概率 均 为 0.5。 单 
侧 区 间 估 计 的 上 界 为 0.466 753 5， 小 于 原 假设 出 现 的 概率 0.5， 因 此 拒绝 了 原 假设 。 

本 例 中 的 假设 为 : H0:M>=M0,H1:M<M0。 其 中 ，M0 为 该 客户 的 消费 金额 ，M 为 样本 的 
中 位 数 ， 代 表 平 均 消 费 水 平 ， 原 假设 为 平均 消费 水 平 比 该 客户 的 消费 金额 大 ， 备 择 假设 为 平 
均 消 费 水 平 比 该 客户 的 消费 金额 小 ， 如 果 备 择 假设 成 立 ， 则 代表 拒绝 原 假 设 ， 且 该 客户 在 这 
类 商品 的 消费 能 力 处 于 中 上 。 

最 后 ， 观 察 binom.test 分 析 结 果 的 p 值 ， 它 等 于 0.010 49， 小 于 0.05， 拒 绝 原 假 设 ， 再 
观察 95% 的 置信 区 间 (95 percent confidence interval)， 其 上 限 为 0.466 753 S， 低 于 0.5， 仍 
拒绝 原 假设 ， 因 此 ， 该 客户 的 消费 金额 高 于 该 类 商品 的 客户 中 间 水 平 ， 处 于 中 上 层 消 费 ， 可 
以 考虑 将 其 设 为 VIP 客户 。 





e sum 函数 的 参数 可 设置 条 件 ， 完 成 条 件 计数 功能 。 比 如 下 面 的 代码 : 


c xe-c(1,3,9,20,41) 

2» x»-7 

[1] FALSE FALSE TRUE TRUE TRUE 
» sum(x»7) 

[1] 3 








2. 虚拟 道具 促销 
某 游戏 公司 对 和 游戏 的 某 类 虚拟 道具 进行 了 为 期 6 周 的 促销 测试 ， 以 增加 其 销量 ， 采 用 
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了 以 下 两 种 促销 手段 ， 请 问 这 两 种 促销 手段 的 效果 相同 吗 ， 如 果 效 果 相 同 ， 则 可 以 定期 采用 
这 两 种 促销 手段 ， 搞 类 似 的 促销 活动 ， 数 据 如 表 7-4 所 示 。 


表 7-4 ”相对 未 促销 前 两 种 促销 手段 所 增加 的 销量 


TEFA 第 5 局 


编写 R 代码 如 下 : 


> à«-c(50,60,45,62,48,59) 
> b«-c(39,68,58,64,52,61) 
> binom.test(sum(a»b),length(a)) 


Exact binomial test 


data:  sum(a > b) and length(a) 
number of successes - 1, number of trials - 6, p-value - 0.2188 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.004210745 0.641234579 
sample estimates: 
probability of success 
0.1666667 


> 


观察 以 上 结果 , pi 0.166666 7, KF 0.05， 不 能 拒绝 原 假 设 ， 原 假设 是 促销 手段 A 
的 销量 增加 数 比 促销 手段 B 多 ， 旦 有 明显 差距 ， 因 此 可 认为 ，A 比 B 的 促销 效果 好 。 


eo sum(a»b) 表示 a X T b 的 数量 ， 
sum(a<b) 表示 a 小 于 b 的 数量 。 


3. 某 商场 顾客 群 分 析 

某 网 上 商场 对 购买 A 类 商品 的 顾客 群 进行 分 析 ， 发 现 他 们 更 喜欢 同时 购买 B 类 或 C 类 商品 ， 
下 面 随机 抽取 了 其 中 的 20 个 顾客 作为 样本 ， 购 买 B 类 商品 的 为 b， 购 买 C 类 商品 的 为 c，1 表 
示 购 买 , 0 表示 没 购买 。 部 分 数据 如 表 7-5 所 示 。( 完 整数 据 可 参见 本 书 源码 包 的 sale3.csv 文件 。) 


表 7-5 顾客 群 购买 情况 


-|o|l-l|-|loc 
ecj—-|eoe|jeljo 
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可 将 原 假 设 定 为 这 类 顾客 群 更 喜欢 同时 购买 C 商品 ， 而 备 择 假设 是 更 喜欢 同时 购买 B 
商品 。 此 外 ， 以 95% 的 置信 度 进行 检测 ， 显 著 水 平 取 0.05。 编 写 如 下 R 代码 : 

> read.csv("sale3.csv")-»mysale 

> c_count<-sum(mysale$b==0 & mysale$c--1) 


b count«-sum(mysale$b--1 & mysale$c--0) 
binom.test(c count,b count«c count,p-1/2,al-"less",conf.level-0.95) 


Exact binomial test 


data: c count and b count + c count 
number of successes - 4, number of trials - 17, p-value - 0.02452 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4605494 
sample estimates: 
probability of success 
0.2352941 


分 析 上 述 结 果 , p = 0.024 52, p 值 小 于 0.05(100%-95%=5%=0.05)， 可 拒绝 原 假设 (更 
喜欢 同时 购买 C 商品 )， 而 备 择 假设 成 立 ， 购 买 A 商品 的 客户 更 喜欢 同时 购买 B 商品 。 同 时 
可 以 看 到 单 侧 区 间 上 界 为 0.460 549 4( 低 于 0.5 )， 这 里 也 表明 要 拒绝 原 假设 。 


OE 该 案例 中 ， 同 时 购买 B 和 C 商品 的 客户 不 用 列 入 样本 容量 进行 计算 。 


7.1.6 ” 秩 相关 检验 


1. spearman 秩 相关 检验 
spearman 秩 相 关 检 验 根据 计算 得 到 的 秩 统计 量 产 生 秩 相关 系数 r+， 相互 独立 时 ，E(r)=0 ; 
IEX, r 为 正 值 ; 负 相 关 时 ，z 为 负 值 ; 可 检测 分 布 无 关 性 。 下 面 对 某 商品 每 周 的 点 击 次 
数 与 每 周 的 销量 进行 统计 ， 表 7-6 是 连续 6 周 的 统计 数据 。 
表 7-6 每 周 的 点 击 次 数 与 销量 
mt [| i» | a | o — 5 | 2» | 
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编写 R 代码 如 下 : 


> sales<-c(150,210,90,190,230,211) 
» hits«-c(310,480,190,400,590,520) 
> cor.test(hits,sales,method-"spearman") 


Spearman's rank correlation rho 


data: hits and sales 
S = 0, p-value = 0.002778 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
1 


> 


观察 以 上 结果 , p (80.002 778<0.05， 因 此 拒绝 原 假 设 ， 认 为 两 个 变量 是 相关 的 。 此 外 ， 
rho»1 表示 正 相 关 ，rho<1 表示 负 相 关 ，E(rho)=0 表示 相互 独立 无 关 。 综 上 所 述 ， 每 周 的 点 击 
次 数 与 每 周 的 销量 是 正 相 关 的 ， 点 击 的 次 数 越 多 ， 销 量 就 越 多 。 


2. Wilcoxon 秩 检验 

Wilcoxon 秩 检验 考虑 了 符号 检测 (如 样本 观测 值 与 总 体 中 位 数 差 的 符号 )， 而 且 考虑 了 
观测 值 与 原 假设 某 位 置 的 具体 差距 的 大 小 。 

以 购物 网 站 的 网 页 改版 为 例 进 行 讲解 ， 假 设 购物 网 站 对 某 类 商品 的 访问 网 页 进行 了 改 
版 ， 并 能 同时 保留 改版 前 的 网 页 和 改版 后 的 网 页 供 顾客 选择 浏览 ， 通 过 一 段 时 间 的 测试 后 ， 
对 通过 两 种 网 页 进行 购买 的 行为 进行 分 析 ， 抽 取 其 中 的 7 个 商品 进行 检测 ， 查 看 改版 的 效 
果 。 销 量 如 表 7-7 所 示 。 


表 7-7 网 页 改版 前 后 的 销量 数据 





某 类 商品 的 所 有 编号 网 页 改版 后 的 销量 
10003 290 506 


首先 ， 检测 网 页 改版 后 该 类 商品 的 销量 提升 是 否 达 到 了 期 待 的 水 平 ， 即 销量 中 位 数 在 
400 以 上 。 设 定 原 假设 为 销量 提升 达到 期 待 水 平 ， 该 类 商品 中 有 一 半 商 品 的 销量 在 400 以 上 
( 即 销量 中 位 数 在 400 以 上 )， 而 备 择 假设 为 销量 中 位 数 在 400 以 下 。R 代码 如 下 : 


>sales<=e(530,500, 506,497;280,388,124) 
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»wilcox.test(sales,mu-400,alternative-"less",correct-FALSE,exact-FALSE, conf. 
int-TRUE) 


Wilcoxon signed rank test 


data: sales 
V = 15, p-value = 0.5671 
alternative hypothesis: true location is less than 400 
95 percent confidence interval: 
-Inf 506.0001 
sample estimates: 
(pseudo)median 
406.0668 


- 


Pp 值 为 0.5671，P>0.05， 不 能 拒绝 原 假设 ， 再 观察 置信 度 为 95% 的 区 间 的 估计 上 限 为 
506.001。 因 此 ， 销 量 中 位 数 在 改版 后 达到 了 400 以 上 。 


eo V. E4X 8 +, alternative 表示 备 择 假设 ，correct 表示 在 计算 P 值 时 是 否 采用 连续 性 修 
E, exact 表示 是 否 精确 计算 了 值 ，confint 设 定 是 否 输 出 置信 区 间 。 


那 能 不 能 再 乐观 些 ， 销 量 中 位 数 能 否 达 到 600 以 上 呢 ? 编写 如 下 R 代码 进行 检测 : 


> wilcox.test(sales,mu-600,alternative-"less",correct-FALSE,exact-FALSE,conf. 
int=TRUE) 


Wilcoxon signed rank test 


data: sales 
vV = 0, p-value = 0.00898 
alternative hypothesis: true location is less than 600 
95 percent confidence interval: 
-Inf 506.0001 
sample estimates: 
(pseudo)median 
406.0668 


- 


p-0.008 98 小 于 0.05， 显 然 需 要 拒绝 原 假设 (销量 中 位 数 大 于 600 )， 不 能 如 此 乐观 地 将 
销量 中 位 数 估计 到 600 以 上 。 


然后 ， 验 证 新 版 网 页 是 否 提高 了 该 类 商品 的 销量 。R 代码 如 下 : 


> salesnew«-c(530,500,506,497,280,388,124) 
> salesold«-c(380,410,290,375,186,300,60) 
> wilcox.test(salesnew,salesold,alternative-"greater",paired-TRUE) 


Wilcoxon signed rank test 
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data:  salesnew and salesold 
V = 28, p-value = 0.007813 
alternative hypothesis: true location shift is greater than 0 


观察 上 述 结果 ， 可 以 看 出 ， 原 假设 为 新 版 网 页 与 老 版 网 页 效果 相同 ， 备 择 假设 为 新 版 
网 页 能 提高 销量 。p=0.007 813， 小 于 0.05， 因 此 拒绝 原 假 设 ， 新 版 网 页 能 提高 该 类 商品 的 
销量 。 


e paired 参数 表示 样本 是 否 属于 成 对 样本 ，TRUE 表示 是 成 对 样本 。 


下 面 以 某 游戏 的 区 域 策 略 调整 为 例 ， 假 设 某 游戏 在 某 区 域内 调整 了 策略 (更 新 地 图 、 怪 
物 等 )， 使 该 区 域 相 对 于 B 职业 玩家 来 说 ， 更 适合 于 A 职业 玩家 进行 升级 和 活动 ， 游 戏 开发 
商 对 在 该 游戏 区 域内 活动 的 A 职业 玩家 和 B 职业 玩家 采取 了 随机 有 奖 问卷 方式 ， 收 集 该 区 域 
的 活动 满意 度 ， 调 查 评分 (满分 为 100 分 ) 如 表 7-8 所 示 。 


表 7-8 两 类 职业 玩家 满意 度 调查 表 
AWMER | o | % | ss | » | em j| s 7 
amumk | c | s | m | 9o | e [| | | 


将 原 假 设 HO 设 为 调整 策略 后 ，A 职业 玩家 与 B 职业 玩家 无 差异 ， 备 择 假设 H1 是 A 职 
业 玩家 比 B 职位 玩家 更 满意 。R 代码 如 下 : 


> a«-c(80,96,84,79,81,92,75,85) 
> be-c(68,75,71,92,66) 
» wilcox.test(a,b,alternative-"greater",exact-FALSE,correct-TRUE) 


Wilcoxon rank sum test with continuity correction 
data: a and b 


W = 33, p-value = 0.03326 
alternative hypothesis: true location shift is greater than 0 


观察 上 述 检测 结果 ，p=0.033 26<0.05， 因 此 拒绝 原 假设 ， 游 戏 策略 调整 效果 较 显 著 ，A 
职业 玩家 更 愿意 在 该 区 域内 活动 和 升级 。 


7.1.7 Kendall 相关 检验 
Kendall 相关 检验 通过 协同 进行 检测 ， 设 x 和 ?两 个 变量 进行 检测 ， 如 果 Qy-xi)oj- 
JD>0， 则 称 对 子 (xi, yi). Gg, yj) 有 同样 的 倾向 ; 反之 ， 如 果 QC-xi)0y-yi)<0， 则 称 对 子 是 不 协 


同 的 。 通 过 将 协同 对 子 代 入 Kendall 相关 系数 ， 再 计算 变量 之 间 的 相关 性 。 对 表 7-6 的 数据 
进行 分 析 ， 首 先 ， 构 造 数据 。R 代码 如 下 : 


> Salesc-c(150,210,90,190,230,211) 
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> hits«-c(310,480,190,400,590,520) 
然后 ， 将 method 参数 设 为 kendall， 进 行 分 析 : 
> cor.test(hits,sales,method-"kendall") 
Kendall's rank correlation tau 
data: hits and sales 
T 215, p-value - 0.002778 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 


tau 
1 


观察 以 上 结果 ， 结 论 仍 是 正 相 关 ,，P 值 0.002 778 小 于 0.05， 因 此 拒绝 原 假 设 。 


回归 模型 
回归 是 研究 一 个 随机 变量 了 对 另 一 个 变量 QO 或 一 组 变量 QOL, X2, se, XE) 的 相依 关系 


的 统计 分 析 方法 ， 它 通过 规定 因 变 量 和 自 变 量 的 关系 来 确定 变量 之 间 的 因果 关系 ， 建 立 回 归 模 
型 ， 并 根据 实测 数据 来 求解 模型 的 各 个 参数 ， 并 评价 回归 模型 是 否 能 够 很 好 地 拟 合 实测 数据 。 


7.2.1 回归 预测 与 显著 性 检验 


下 面 按 方 程 y=BotB ix+ 8 进行 一 元 线性 回归 和 预测 。 
首先 ， 建 立 回归 模型 。R 代码 如 下 : 


$3«-0(12,9,5,7,17,19) 
y«-c(28,20,8,13,36,39) 
lm(y-1-«x)-»mylm.lm 
mylm.im 

Call: 

lm(formula = y ~ 1 + x) 


V VM NM 


Coefficients: 
(Intercept) x 
1.284 2.034 


> summary (mylm.1lm) 


Call: 
lm(formula = y ~ 1 + x) 


Residuals: 
1 2 3 4 5 6 
2.3048 0.4076 0.6132 -2.5239 0.1335 -0.9351 


Coefficients: 


ww ai bot. com [1 BH D BD B. D. 


第 7 章 ， 假 设 检验 与 回归 模型 案例 $> 215 


Estimate Std. Error t value Pr(»|tl) 


(Intercept) 1.2840 1.6609 0.773 0.482617 
x 2.0343 0.1332 á 15.273 0.000107 *** 
Biognif. codes: Q sar D.,001 '*** 06,01 '** QS ',.,* Q * *" 1 


Residual standard error: 1.811 on 4 degrees of freedom 
Multiple R-squared: 0.9831, Adjusted R-squared: 0.9789 
F-statistic: 233.3 on 1 and 4 DF, p-value: 0.0001072 


观察 以 上 结果 ， 从 summary 给 出 的 回归 模型 信息 可 以 看 出 ，Residuals 部 分 指出 x6 个 值 
的 残 差 ，Coefficients 部 分 指出 Bo 预测 为 1.2840, HERNE (Std. Error) 为 1.6609 ; x 的 参 
数 ( B 1 部 分 ) 预测 为 2.0343， 其 标准 差 (Std. Error) 为 0.1332。 

然后 ， 指 定 自 变量 (如 x 值 ) 后 ， 对 因 变 量 (如 y 值 ) 进行 预测 ，R 代码 如 下 : 


> myx«-data.frame(x-c(20,28,19)) 

> predict (mylm.lm,myx,interval-"prediction",level-0.95) 
fit lwr upr 

41.96934 35.63207 48.30661 

58.24346 49.98260 66.50432 

39.93508 33.78026 46.08989 


V BO HD 


观察 以 上 结果 ， 在 置信 度 为 95% 的 情况 下 ， 如 果 x=20， 则 y 值 预测 为 41.969 34, y 值 预 
测 落 在 区 间 [35.632 07,48.306 61]， 如 果 x=19， 则 y 值 预测 落 在 区 间 [33.780 26, 46.089 89]。 

此 外 ， 还 可 对 回归 模型 中 的 参数 进行 预测 。 

以 一 元 线性 回归 模型 y*=Bo+Bx+s 为 例 ，s 是 随机 误差 ，B。 和 Bi 是 参数 。 设 a 为 
显著 水 平 ， 则 置信 度 为 1-a ， 其 参数 的 区 间 估 计 如 下 : 


[B - sd( B ) ta(n-2), B *sd( B )ts(n-2)] 


按照 上 述 公 式 ， 计 算 上 述 回归 模型 参数 在 9599 置信 度 (显著 水 平 a=0.05 ) 的 预计 区 间 ， 
R 代码 如 下 : 


> summary (mylm.l1m)-»mylm.summary 
># 取出 参数 预测 部 分 
> mylm.summary$coefficients-»mycof 
> mycof 
Estimate Std. Error t value Pr(s»ltl)j 
(Intercept) 1.284040 1.6609290 20.7730852 0.4826172233 
x 2.034265 410.1331944 15.2729058 0.0001071897 
# 显著 水 平 a 
» a«-0.05 
># mylm.lm$df.residual 为 模型 的 自由 度 ， 其 值 为 n-2, n 为 x 向 量 或 y 向 量 包 括 元 素 的 个 数 . 
mylm.lms$df.residual->mydf 
lower_bound<-mycof[,1]-mycof[,2]*qt (1-a/2,mydf) 
upper bound«-mycof[,1]«mycof[,2]*qt(1-a/2,mydf) 
dimnames (mycof)[[1]]-»myrowname 
c(" 预计 值 "," FAE "," EJE ") -mycolname 
>+ 显示 参数 预测 区 间 


VV VM V 
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> matrix(c(mycof[,1],lower bound,upper bound),ncol-3,dimnames-list (myrowname,my 
colname)) E 
预计 值 下 界 值 上 界 值 
(Intercept) 1.284040 -3.327439 5.895518 
x 2.034265 1.664458 2.404072 
= 


分 析 以 上 结果 ，x 的 系数 参数 预计 在 [1.664 458,2.404 072] 的 范围 内 。 


7.2.2 ”回归 诊断 


通过 对 回归 进行 显著 性 检验 ， 可 检测 回归 效果 ， 尤 其 是 在 多 元 线性 回归 分 析 中 ， 无 法 用 
散 点 图 直观 地 判断 众多 变量 x, o, n, xa X t xy 与 之 间 是 否 存在 线性 关系 的 时 候 。 回 归 
效果 的 显著 性 检验 可 分 为 回归 方程 的 显著 性 检验 和 回归 系数 的 显著 性 检验 。 

以 1m 函数 结果 为 参数 ， 调 用 summary 函数 ,将 返回 很 多 回归 检验 分 析 信 息 。 我 们 以 2 
元 线性 回归 y=BotBixt+Bzxate 为 例 。R 代码 如 下 : 

Émxle-c(9,223,83,21,193) 

» x2«-c(98,52,185,263,76) 

»c(237,415,479,630,438) -»y 


> lm(y-x1«x2)-»myim.lm 
> summary (mylm.lm) 


Call: 
lm(formula = y ~ x1 + x2) 
Residuals: 
1 2 3 4 5 


2.462 2.037 —-39.732 23.131 12.102 


Coefficients: 
Estimate Std. Error t value Pr(»ltl) 
(Intercept) 10.9635 57.2566 0.191 0.8658 
x1 1.2985 0.2341 5.547 0.0310 * 
x2 2.1621 0.2622 8.246 0.0144 * 
SiguiFf., codes: D '**w* EPD wes' g. OL '9*' g.UgS ',* Q.1" * 1 


Residual standard error: 33.69 on 2 degrees of freedom 
Multiple R-squared: 0.9714, Adjusted R-squared: 0.9429 
F-statistic: 34 on 2 and 2 DF, p-value: 0.02857 


依次 分 析 summary 函数 的 结 进行 显著 性 检验 : 

1) 分 析 Coefficients 部 分 。B。 的 预测 (E 29 10.9635, Bı 的 预测 值 为 1.2985， 标 准 差 为 
0.2341，B: 的 预测 值 为 2.1621， 标 准 差 为 0.2622 ; B, 的 t+ 值 为 5.547，B。， 的 t 值 为 8.246。 
Pr(>t) 值 即 P 值 ， 为 T 统 计量 的 显著 水 平 ， 将 该 值 与 显著 性 水 平 比较 ， 可 决定 该 自 变 量 是 否 接 
受 回 归 系 数 的 假设 检验 ， 该 值 越 小 越 显著 ， 回 归 效 果 越 好 ，B 1 和 Bom Pret) 值 均 小 于 显著 性 
水 平 0.05, 但 线性 不 显著 ,后 面 的 一 个 星 号 也 说 明了 这 一 点 ， 自 变量 系数 勉强 通过 显著 性 检验 。 
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如 果 Prelt) f >0.05， 表 明 该 自 变量 的 回归 系数 不 显著 ， 这 种 情况 下 有 必要 考虑 回归 方 
程 是 否 正 确 ， 或 者 剔除 一 些 不 显著 的 变量 ， 重 新 建立 更 简单 更 精确 的 线性 回归 方程 。 

2) 分 析 Residual standard error 部 分 ， 该 数值 若 较 小 则 比较 适合 ， 本 例 中 残 差 的 标准 差 
为 33.69， 数 值 较 大 效果 不 理想 。 

3 ) 分 析 Multiple R-squared 部 分 ， 该 部 分 为 相关 系数 的 平方 ， 该 数值 越 大 ， 说 明 回 归 效 
果 越 理想 。 本 例 中 相关 系数 的 平方 值 为 0.9714。 

4) 分 析 F-statistic 部 分 的 p-value 值 ， 该 值 为 F 统计 量 的 显著 水 平 ， 可 用 该 值 进行 回归 
方程 显著 性 检测 ， 数 值 越 小 越 好 ， 越 小 则 说 明 回 归 方 程 越 显 著 。 本 例 中 的 p 值 为 0.028 57, 
回归 效果 一 般 。 ; 

此 外 ,R 还 提供 了 influence.measures 进行 回归 诊断 。 下 面 建立 了 一 个 效果 显著 的 回归 模型 ; 


Xx1«-0(9,223,83,21,193) 
x2«-c(98,52,185,263,76) 
y«-x14«3*x2«runif(5,2,18) 
lm(y-x1-«x2)-»mylm.lm 
summary (mylm.1lm) 


V VM M M 


Call: 
lm(formula = y ~ x1 + x2) 


Residuals: 
1 2 3 4 5 
0.03635 2.17997 1.16226 -0.40196 -2.97661 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 3.06344 4.67353 0.655 0.579476 
x1 1.03200 0.01911 54.010 0.000343 *** 
x2 3.02659 0.02140 141.412 5e-05 *** 
Signif. odessa Q '***' 0.001 '*** Od '*" 0,05 v." pA * ' 1 


Residual standard error: 2.75 on 2 degrees of freedom 
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9998 
F-statistic: 1.163e«04 on 2 and 2 DF, p-value: 8.595e-05 


观察 以 上 结果 ，Pr(>|tj) A p 值 远 小 于 0.05， 说 明 回 归 方 程 和 回归 系数 都 非常 显著 ， 回 
归 效 果 非 常 好 。 


7.2.3 回归 优化 

通常 可 通过 逐步 回归 来 优化 回归 方程 ， 从 可 供 选 择 的 所 有 自 变 量 中 选 出 对 Y 有 显著 影响 
的 变量 建立 方程 ， 忽 略 对 YY 无 显著 影响 的 变量 。 使 用 R 的 step 函数 可 以 完成 逐步 回归 ， 该 
函数 以 AIC 信息 统计 量 为 准则 ， 选 择 最 小 的 AIC 信息 统计 量 来 删除 自 变量 。 

下 面 举例 说 明 : 

> x1«-c(9,223,83,21,193) 
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> x2«-c(98,52,185,263,76) 
2X3«-c(25,35,48,58,42) 

> y«-c(841,1570,2774,3923,2137) 
> lm(y-x1«x24x3)-»mylm.lm 

> summary (mylm. 1m) 


Call: 
lm(formula = y ~ xl + x2 + x3) 


Residuals: 
1 2 3 4 5 
8.075 39.072 -103.947 64.654 -7.854 


Coefficients: 
Estimate Std. Error t value Pr(»ltl) 


(Intercept) -1.395e«-03 2.824e+02 -4.938 0.127 
x1 4.873e-02 3.3306+00 0.015 0.991 
x2 2.386e«00 6.309e«00 0.378 0.770 
x3 7.973e-01 3.262e«01 2.444 0.247 


Residual standard error: 129 on 1 degrees of freedom 
Multiple R-squared: 0.997, Adjusted R-squared: 0.988 
F-statistic: 110.5 on 3 and 1 DF, p-value: 0.06978 


观察 以 上 结果 ， 从 summary 的 分 析 结果 可 以 看 出 ， 效 果 很 不 理想 ，xl1、x2 、x3 的 系数 了 
值 全 部 大 于 0.05， 回 归 系 数 不 显 著 ， 回 归 方 程 F 分 布 的 bp 值 更 不 显著 。 

下 面 调 用 step 函数 进行 优化 。R 代码 如 下 : 

> step(mylm.lm)-»mylm.step 


Start:  AIC-48.55 
y ~ xl + x2 + x3 


Df Sum of Sq RSS AIC 
= x1 1 4 16642 46.551 
= X2 1 2380 19018 47.219 
«none» 16638 48.550 
= x3 i 99409 116048 56.262 


Step: AIC=46.55 
y ~ x2 + x3 


Df Sum of Sq RSS AIC 
<none> 16642 46.551 
- X2 L 55362 72004 51.875 
一 ad 上 1388382 1405024 66.731 


从 以 上 step 结果 可 以 看 出 ， 选 择 去 掉 xl1， 可 以 使 AIC 的 值 为 最 小 值 46.551， 因 此 在 最 
终 的 回归 方程 中 删除 x1。 


> summary (mylm.step) 
Call: 
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lm(formula = y ~ x2 + x3) 
Residuals: 
1 2 3 4 5 
7.660 40.327 -103.459 64.579 -9.108 


Coefficients: 
Estimate Std. Error t value Pr(»ltl) 
(Intercept) -1396.4131 180.3749 -7.742 0.01628 * 


x2 2.2954 0.8899 2.579 0.12314 
x3 80.1922 6.2082 12.917 0.00594 ** 
Slgnif. godes: © 's*€*' qupol "**" ODL *'*'" Q.0m '.* D.I *" * 1 


Residual standard error: 91.22 on 2 degrees of freedom 
Multiple R-squared: 0.997, Adjusted R-squared: 0.994 
F-statistic: 331.5 on 2 and 2 DF, p-value: 0.003007 


观察 以 上 结果 ， 从 summary 函数 对 优化 后 的 回归 方程 的 分 析 结 果 可 以 看 出 ， 相 对 没 优化 
前 ，Residual standard error 值 减 少 为 91.22，x2、x3 系数 的 P 值 减少 为 0.123 14、0.005 94, 
x3 的 系数 通过 检测 x1 因为 不 显著 最 终 没有 加 入 回归 方程 中 ，F 分 布 的 p-value 值 也 减少 为 
0.003 007， 总 体 来 说 优化 后 回归 方程 和 回归 系数 更 加 显著 ， 回 归 效 果 更 好 。 


7.2.4 ERDEI 
主 成 分 分 析 将 多 个 指标 中 少数 几 个 综合 指标 ， 通 过 降 维 技术 ， 将 多 个 变量 简化 成 少数 


几 个 主 成 分 的 方法 ， 这 些 主 成 分 能 反映 原始 变量 的 绝 大 部 分 信息 ， 表 示 为 原始 变量 的 线性 组 
合 。 以 网 上 商场 的 购物 满意 度 为 例 进行 回归 ， 表 7-9 是 某 网 上 商场 的 购物 满意 度 指标 。 


表 7-9 某 网 上 商场 的 购物 满意 度 指 标 
网 友 评论 次 数 (X1) 好 评 次 数 (X2) 商品 浏览 人 数 (X3) | 商品 已 上 市 天 数 (X4) 购物 满意 度 (1-5) 
200 120 800 














1. 主 成 分 分 析 
首先 ,使 用 RR 语言 的 princomp 函数 进行 主 成 分 分 析 : 


buy«-data.frame( 
X1«-c(200,600,60,400,150), 
X2«-c(120,480,20,320,80), 
X3«-c(800,3000,300,2200,450), 
X4«-c(210,320,50,260,130) 7 
Ye-6c(423,;5,2,4,3) 

) 


二 十 十 十 二 二 六 
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> princomp(-X14X24X3-4X4, cor-TRUE)-»mypr 
» summary (mypr,loadings-TRUE) 
Importance of components: 

Comp.1 Comp.2 Comp.3 Comp.4 
Standard deviation 1.9711809 0.32537035 0.092379136 6.793839e-03 
Proportion of Variance 0.9713885 0.02646647 0.002133476 1.153906e-05 
Cumulative Proportion 0.9713885 0.99785498 0.999988461 1.000000e«00 


Loadings: 

Comp.1 Comp.2 Comp.3 Comp.4 
X1 -0.506 -0.164 0.644 0.550 
X2 -0.505 -0.289 0.203 -0.788 
X3 -0.502 -0.381 -0.726 0.274 
X4 -0.487 0.863 -0.130 


观察 以 上 结果 ，summary 函数 输出 了 主 成 分 分 析 信息 ， 该 信息 主要 包括 以 下 内 容 : 
O Standard deviation 行 表示 的 是 主 成 分 的 标准 差 ( 主 成 分 的 方差 的 开 方 )。 

口 Proportion of Variance 行 表示 的 是 方差 的 贡献 率 。 

口 Cumulative Proportion 行 表 示 的 是 方差 的 累积 贡献 率 。 


口 Loadings 栏 表示 降 维 后 主 成 分 对 应 于 原始 变量 多、 如、X3、X4 的 系数 。 在 调用 


summary 函数 时 ， 可 以 将 参数 loadings 设 为 TRUE， 才 能 输出 loadings 信息 。 


2. 降 维 

该 网 上 商场 的 满意 度 指标 有 网 友 评论 mypr 
次 数 ( 姑 )、 好 评 次 数 ( 阳 )、 商 品 浏 览 人 * Ya 
数 0X3) figa e ET (x4 ) 364, 
其 中 第 1 个 主 成 分 Comp.1 的 贡献 率 为 
0.971 388 5， 第 2 个 主 成 分 Comp.2 的 贡献 


3 





RH 0.026 466 47， 这 两 个 主 成 分 的 累积 E : 

贡献 率 已 经 达到 99.79%， 并 且 后 面 两 个 主 $ 

成 分 的 方差 贡献 率 很 小 ， 因 此 ， 可 将 后 面 

两 个 主 成 分 去 掉 ， 实 现 降 维 。 7 
此 外 ， 还 可 做 出 碎 石 图 (如 图 7-1 所 

示 )， 可 直观 地 看 出 六 和 和 的 贡献 率 较 o o 

ro R 代码 如 下 : Comp.1 Comp.2 Comp.3 Comp.4 
screeplot (mypr,type-"lines") 图 7-1 网 上 商场 满意 度 指 标 碎 石 图 


再 观察 对 满意 度 指 标 分 析 结果 中 的 loadings 栏 ， 可 以 将 前 两 个 主 成 分 写成 以 下 形式 : 
Zi=-0.506X1-0.505X2-0.502X3-0.487X1 
Z2=-0.164XI-0.289X2-0.381X3+0.863X1 


3. 回归 模型 建立 


接着 ， 可 以 建立 这 几 个 指标 与 满意 度 的 回归 模型 ， 根 据 前 面 的 主 成 分 分 析 结 果 ， 只 选择 
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前 两 个 贡献 率 高 的 主 成 分 X1 与 X2 ， 建 立 回归 模型 ， 消 除 变量 的 多 重 共 线 性 。 


pre«-predict (mypr) 

pre[,1]-»buyS$Z1$ 第 一 主 成 分 
pre[,2]-»buy$224 4 — € KZ 
lm(Y-Z214Z2,data-buy)-»mylmt 建立 回归 模型 
summary (mylm) 


V MV MV MV M 


Call: 
lm(formula = Y ~ Z1 + Z2, data = buy) 


Residuals: 
1 2 3 4 5 
0.06267 0.15488 0.01870 -0.25828 0.02203 


Coefficients: 
Estimate Std. Error t value Pr(»|t!) 
(Intercept) 3.60000 0.09770 36.847 0.000736 *** 


Z1 -0.47551 0.04956 -9.594 0.010691 * 
Z2 1.15957 0.30028 3.862 0.060988 . 
SGignif. eodes: G "Www 001 OA MOL TT 0.05 !t.* D.Tt " "1 


Residual standard error: 0.2185 on 2 degrees of freedom 
Multiple R-squared: 0.9816, Adjusted R-squared: 0.9633 
F-statistic: 53.48 on 2 and 2 DF, p-value: 0.01836 


分 析 上 述 summary 函数 的 执行 结果 ， 可 得 到 如 下 回归 方程 : 
Y=3.6-0.475 51 x ZI+1.159 57 x Z} 

4. 主 成 分 变量 变换 

最 后 ， 可 将 主 成 分 变量 进行 变换 : 

coef (mylm) ->beta# 回归 系数 

loadings (mypr)->myloading# 载荷 

mypr$center-»mybart 均值 

mypr$scale->mysd# 标准 差 

(beta[2]*myloađing [,1]+beta[3]*myloading[,2])/mysd->mycoef 

beta[1]-sum(mybar*mycoef)->beta0 

C(beta0,mycoef) 


(Intercept) X1 X2 X3 X4 
1.3870124896 0.0002572658 -0.0005545049 -0.0001905035 0.0129419446 


该 网 上 商场 的 购物 满意 度 的 最 终 回归 模型 如 下 : 
Y=1.387 012 489 6+0.000 257 265 8 x Xi-0.000 554 504 9 x X; 
-0.000 190 503 5 x X3+0.0129 419 446 x X4 


7.25 ”广义 线性 模型 


1. 广义 线性 模型 概述 
广义 线性 模型 ( Generalized Linear Model, GLM) 是 一 种 被 广泛 应 用 的 线性 回归 模式 ， 
ww ai bbt. con DODDODODD 
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它 是 线性 模型 的 扩展 ， 其 特点 是 不 强行 改变 数据 的 自然 度量 ， 因 为 变量 的 总 体 均 值 可 通过 非 
线性 或 线性 连接 函数 依赖 于 线性 预测 值 ， 建 立 起 可 解释 随机 变量 相关 性 的 函数 。 

GLM 是 简单 最 小 二 乘 回归 的 扩展 ， 主 要 是 通过 连接 函数 ， 建 立 响应 变量 的 数学 期 望 什 
与 自 变量 线性 组 合 的 预测 变量 之 间 的 关系 。 假 设 每 个 样本 的 观测 值 Y 来 自 某 个 指数 族 分 布 ， 
该 分 布 的 平均 数 4 可 由 与 该 点 独立 的 义 来 解释 : 

E(y)= u =g (XB) 

上 式 中 ，E(y) 为 y 的 期 望 值 ，XB 是 由 未 知 待 估计 参数 B 与 已 知 自 变 量 X 构 成 的 线性 
估计 式 ，g 为 连接 函数 ，g: 则 为 连接 函数 反 函 数 。 表 7-10 是 经 典 的 连接 函数 及 其 反 函 数 (也 
可 称 为 均值 函数 )。 


表 7-10 ”经典 的 连接 函数 及 其 反 函 数 


连接 函数 












= 


l _ (E 
Kea) 


简 而 言 之 ，GLM 不 但 适用 于 连续 数据 ， 还 适用 于 诸如 属性 数据 、 计 数 数据 等 离散 数据 ， 
它 通 过 连接 函数 将 因 变 量 的 期 望 值 与 线性 自 变 量 联系 ， 自 变量 的 线性 预测 值 是 因 变量 的 估计 
值 ， 并 对 误差 的 分 布 给 出 误差 函数 ， 在 GLM 模型 中 ， 需 要 指定 分 布 类 型 和 连接 函数 。 

在 RR 中 通常 使 用 GLM 函数 构造 广义 线性 模型 , 其 中 分 布 参 数 包括 binomaial (二 项 分 布 )、 
gaussian( 正 态 分 布 )、gamma ( 伽 马 分 布 )、poisson ( 泊 松 分 布 ) 等 。 


2. 广义 线性 模型 实例 

下 面 以 二 项 分 布 (binomaial) 的 logistic 回归 模型 为 例 进行 讲解 。 假 设 某 网 上 商场 试图 建 
立 某 类 商品 的 购买 率 (购买 量 /商品 页 面 浏览 次 数 ) 与 气候 之 间 的 关系 模型 ， 这 样 就 可 根据 
当地 气候 的 预测 情况 ， 推 断 该 类 商品 的 购买 率 ， 从 而 向 消费 者 推荐 该 类 商品 。 样 本 数据 如 表 
7-11 所 示 。 










RE=(XBD) 


px) 
p -exp(X p ) 
exp(X B ) 


H= pexp(X B) 










二 项 
多 项 式 





表 7-11 雨量 与 购买 率 
雨量 (小 为 0、 中 为 1、 大 为 2 ) 








0 
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( 续 ) 
z TE 
35 2 0.78 
19 2 0.39 
13 2 0.29 


首先 ， 建 立 广义 线 性 模型 。R 代码 如 下 所 示 : 


> mysale«-data.frame( 
temperature«-c(22,38,12,33,6,9,29,17,33,31,35,19,13, B), 
rainfalle-eo(0,0,0,0,0;.1,1;1;1,2,2,2,2,2), 

n«-rep(100,14), 

buy«-c(15,27,11,20,9,18,32,22,35,69,78,39,29,25) 

) 

> mysale$y«-cbind(mysale$buy,mysale$n-mysale$buy) 

> glm(y-temperature«rainfall,family-binomial,data-mysale)-»myglm 
» summary (myglm) 


Call: 
glm(formula = y ~ temperature + rainfall, family = binomial, 
data - mysale) 
Deviance Residuals: 
Min 19 Median 3Q Max 
-1.5231 -0.8861 -0.1604 2. 1559 2.3457 
Coefficients: 
à Estimate Std. Error z value Pr(>|z|) 
(Intercept) -3.23592 0.20961 -15.438 «26-16 Few 
temperature 0.06136 0.00633 9.694 «2e-16 *** 
rainfall 0.90678 0.08067 11.240 «2e-16 *** 
Signif. codes: Q ***** H Qg sewo p.gr =m g.,g5 r Gt *" 1 q 


(Dispersion parameter for binomial family taken to be 1) 


243.940 
19:553 


Null deviance: 
Residual deviance: 
AIC: 90.86 


on 13 
on 11 


degrees of freedom 
degrees of freedom 


Number of Fisher Scoring iterations: 4 
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观察 以 上 分 析 结 果 可 以 发 现 ， 回 归 参 数 为 Bo=-3.235 92、B 1=0.061 36、B 一 -0.906 78, 


系数 参数 通过 了 显著 性 水 平 a=0.05 的 检验 ， 回 归 模 型 如 下 : 


exp(-3.235 92+0.061 36 x temperature+0.906 78 x rainfall) 





B 1+exp(-3.235 92--0.061 36 x temperature-*0.906 78 x rainfall) 
其 中 temperature 是 温度 ，rainfall 是 雨量 。 
接着 ， 可 根据 该 回归 模型 进行 预测 。 比 如 温度 为 30" ， 大 十 时 ， 该 类 商品 的 购买 率 为 多 


V 


predict (myglm,data.frame(temperature-30,rainfall-2))-»mypre 
mypre 

1 
.41857 
exp (mypre)/(1-«exp(mypre))-»mybuy 
mybuy 

1 

.603141 


观察 以 上 结果 ， 最 后 一 行 表 明 ， 大 雨 且 温度 为 30C 时 ， 购 买 率 估计 为 60.396. 
再 来 看 一 个 例子 ， 表 7-12 是 网 上 商场 某 类 商品 的 若干 名 回头 客 的 数据 。 


表 7-12 某 类 商品 的 若干 名 回头 客 的 数据 


M 


V o 


v 


o 


商品 打折 购买 与 否 ( 0 表示 不 购买 ，1 表示 购买 ) 
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(E) 


赠品 数量 ( 0-2 ) 购买 与 否 ( 0 表示 不 购买 ，1 表示 购买 ) 





对 表 7-12 的 数据 运用 GLM 进行 分 析 ， 得 到 购买 率 (Y) 和 商品 打折 (X1 )、 赠 品 数量 
(X2) 的 回归 模型 。 
首先 ， 建 立 广义 线性 模型 ，R 代码 如 下 : 


mysale«-data.frame( 

X1ze(0.82,0,92,0.68,0.2,0.62,0.52,0.42,0.85,0.95,0.65,0.754,0.7,0.5,0.38,0.85, 
0.95,0.65,0.75,0.6,0.48,0.98,0.3), 

EK2zrep(c(0,1,2),c0(7,7,8)), 

Y25c(0,0,0,0,1,1,1,0,0,1,0,1;1,1,1;1,1.1421,1;0; 1)) 

> 

> glm(Y~X1+X2, family=binomial,data=mysale)->myglm 

> summary (myglm) 


Call: 
gim(formula = Y ~ X1 + X2, family = binomial, data = mysale) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.72890 -0.04535 0.00108 0.08745 1.28906 


Coefficients: 
Estimate Std. Error z value Pr(>|z|) 
(Intercept) 24.388 14.086 1.931. 0.0834 
X1 -39.360 22.348 -1.761 0.0782 
X2 6.373 3.754. 1.699 0.0893 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0,05 '.* 0.1 * " 1 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 28.841 on 21 degrees of freedom 
Residual deviance: 7.054 on 19 degrees of freedom 
AIC: 13.054 


Number of Fisher Scoring iterations: 8 


> 


观察 以 上 分 析 结 果 可 以 看 出 ， 回 归 参 数 为 B o=24.388、B =-39.360，B :=6.373 ， 系 数 参 
数 通 过 了 显著 性 水 平 a=0.1 的 检验 ， 回 归 模 型 如 下 : 
exp(24.388-39.360 x Xi+6.373 x X) 


1-*exp(24.388—-39.360 x Xi+6.373 x X;) 
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Hop oxi 是 商品 打折 ，X2 是 赠品 数量 。 
然后 ， 根 据 该 回归 模型 进行 预测 ， 分 别 从 以 下 几 种 情况 进行 预测 。 
1) 在 商品 打折 73%、 赠 品 数量 是 1 的 情况 下 ， 该 类 商品 的 购买 率 为 88.37%。R 代码 如 下 : 


> predict (myglm,data.frame(X120.73,X2-1))-»mypre 
> exp(mypre)/(1l«exp(mypre))-»mybuy 
> mybuy 
T 
0.8836742 
> 


2) 在 商品 打 85 折 、 赠 品 数量 是 1 的 情况 下 ， 该 类 商品 很 可 能 不 会 被 回头 客 购买 。R 代 
人 码 如 下 : 
> predict (myglm,data.frame(X120.85,X2-1))-»mypre 


exp (mypre) /(1«exp(mypre))-»mybuy 
» mybuy 








V 


HR 
0.06323925 
3) 在 商品 打 85 折 、 赠 品 数 量 是 2 的 情况 下 ， 该 类 商品 非常 有 可 能 被 回头 客 购买 。R 代 
码 如 下 : 
> predict (myglm,data.frame(X1-0.85,X2-2))-»mypre 
> exp(mypre)/(1-«exp(mypre))-»mybuy 
> mybuy 


1 
0.9753328 


73 小结 


本 章 首 先 讲 述 了 假设 检验 ， 通 过 设立 零 假设 ( 想 检验 其 正确 性 ) 与 对 立 假设 (通常 反映 
研究 者 对 未 知 参 数 的 看 法 ， 相 对 于 零 假 设 的 其 他 论述 )， 研 究 某 事件 发 生 的 可 能 性 ， 如 果 可 能 
发 生 的 话 ， 分 析 其 预测 区 间 值 ， 具 体 介 绍 了 二 项 分 布 假设 检验 、 数 据 分 布 检验 、 正 态 总 体 均 
值 检 验 、 列 联 表 、 符 号 检测 、 秩 相关 检验 、Kendall 相关 检验 等 。 然 后 ， 讲 解 了 回归 模型 的 若 
干 问题 ， 回 归 通 过 规定 因 变量 和 自 变量 的 关系 来 确定 变量 之 间 的 因果 关系 ,具体 介绍 了 回归 
预测 、 回 归 显 著 性 检验 、 回 归 诊 断 与 优化 、 主 成 分 回归 与 广义 线性 回归 等 。 


思考 题 


CI) 对 某 服务 器 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 数 ， 分 别 为 : 210、 
190、320、230、160、67、400、340， 经 估计 它 符合 入 =1/280 的 指数 分 布 ， 验 证 一 下 稳定 性 
的 分 布 。 
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(2) 网 上 商场 某 类 些 商 品 经 常 发 生 投诉 问题 ， 以 往 发 生 投 诉 的 概率 为 35%， 对 这 类 商品 
的 供应 商 进 行规 范 和 约束 调整 后 ， 随 机 抽取 了 400 多 个 客户 ， 其 中 有 40 个 投诉 ， 策 略 调整 
是 否 有 效果 ? 

(3) XE FEH X A Y 进行 Kendall 相关 检验 ， 检 测 其 相关 性 。 


» X«-c(150,210,90,190,230,211) 
> Y«-c(40, 20,30,18,28,22) 


(4) 对 因 变 量 y 和 自 变 量 x1、x2、x3 建立 线性 回归 模型 ， 并 进行 优化 。 


> x1«-c(9,223,83,21,193) 

> x2«-c(108,52,180,259,82) 
= x3«-c(8,5,10, 9, 2) 
»c(237,415,479,630,438)-»5y 
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机 器 学 习 算法 


学 习 就 是 在 不 断 重复 的 工作 中 使 自己 的 能 力 不 断 增强 或 改进 ， 在 下 一 次 执行 相同 或 类 似 
的 任务 时 ,会 比 原来 做 得 更 好 或 效率 更 高 。 机 器 学 习 研 究 指 的 是 用 计算 机 来 模拟 或 实现 人 类 
学 习 活 动 ， 研 究 如 何 使 机 器 通过 识别 和 利用 现 有 的 知识 来 获取 新 知识 和 新 技能 。 机 器 学 习 的 
内 部 表现 为 从 未 知 到 已 知 这 样 一 个 知识 增长 过 程 ， 其 外 部 表现 为 某 些 性 能 和 适应 性 得 到 系统 
的 改善 。 机 器 学 习 形成 了 一 套 算法 理论 ， 这 些 算 法 使 系统 能 完成 原来 不 能 完成 的 任务 ， 或 者 
能 更 好 地 完成 原来 可 以 完成 的 任务 。 


8.1 神经 网 络 


1. 神经 网 络 基本 原理 

人 脑 由 上 千 亿 条 神经 组 成 ， 每 条 神经 平均 又 会 连接 到 几 千 条 其 他 的 神经 ， 通 过 这 种 连接 
方式 ， 神 经 可 以 收发 不 同 数量 的 能 量 。 神 经 一 个 非常 重要 的 功能 就 是 ， 它 们 对 能 量 的 接收 并 
不 是 立即 作出 响应 ， 而 是 将 它们 累加 起 来 ， 当 这 个 累加 的 总 和 达到 某 个 临界 靖 值 时 ， 它 们 才 
将 自己 的 那 部 分 能 量 发 送 给 其 他 的 神经 。 大 脑 通过 调节 这 些 连接 的 数目 和 强度 来 进行 学 习 。 

如 图 8-1 所 示 是 一 个 神经 元 的 模型 ， 神 经 网 络 复杂 多 样 ， 由 大 量 与 该 图 类 似 的 神经 元 及 
突 触 组 成 。 神 经 科学 界 的 共识 是 ， 人 类 大 脑 包含 1000 亿 个 神经 元 ， 每 个 神经 元 有 1 万 个 突 
触 ， 数 量 巨大 ， 组 合 方式 复杂 ， 联 系 广泛 。 也 就 是 说 ， 突 触 传递 的 机 制 复杂 。 

现在 已 经 发 现 和 阐明 的 突 触 传递 机 制 有 : 突 触 后 兴奋 、 突 触 后 抑制 、 突 触 前 抑制 、 突 触 
前 兴奋 ， 以 及 远程 抑制 等 。 在 突 触 传递 机 制 中 ， 释 放 神 经 递 质 是 实现 突 触 传递 机 能 的 中 心 环 
节 ， 而 不 同 的 神经 递 质 有 着 不 同 的 作用 性 质 和 特点 。 
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图 8-1 大 脑 神经 元 


人 工 神 经 网 络 (ANN) 是 一 种 模仿 生物 神经 网 络 结构 和 功能 的 数学 模型 ， 它 使 用 大 量 的 
人 工 神经 元 连接 来 进行 计算 ,该 网 络 由 大 量 的 “神经 元 ”相互 连接 构成 ， 每 个 “神经 元 ” 代 
表 一 种 特定 的 输出 函数 。 又 称 为 激励 函数 。 每 两 个 “神经 元 ” 间 的 连接 代表 一 个 通过 该 连接 
信和 号 的 加 权 值 ， 称 之 为 权重 ， 这 相当 于 人 工 神 经 网 络 的 记忆 。 网 络 的 输出 则 根据 网 络 的 连接 
规则 来 确定 ， 输 出 因 权 重 值 和 激励 函数 的 不 同 而 不 同 。 人 工 神经 网 络 可 理解 为 对 自然 界 某 种 
算法 或 者 函数 的 到 近 。 

如 图 8-2 所 示 是 一 个 简单 的 人 工 神 经 元 示意 图 。 其 中 ，xi(?) 等 数据 为 这 个 神经 元 的 输入 ， 
代表 其 他 神经 元 或 外 界 对 该 神经 元 的 输入 ; wa 等 数 
据 为 这 个 神经 元 的 权重 ，u 关 wi “x(?) 是 对 输入 
的 求 和 ， 为 诱导 局 部 域 ; ytwui(D)) 为 输出 函数 ， 也 
称 激励 函数 ， 是 对 诱导 局 部 域 的 再 加 工 ， 也 是 最 终 
的 输出 。 


2. 神经 网 络 发 展 历史 

20 世 纪 40 年 代 ， 心 理学 家 Mcculloch 和 数学 
家 Pitts 联合 提出 了 兴奋 与 抑制 型 神经 元 模型 ， 另 
外 ，Hebb 提出 了 神经 元 连接 强度 的 修改 规则 ; 到 
20 世纪 五 六 十 年 代 ， 该 领域 具有 代表 性 的 工作 是 
Rosenblatt 的 感知 机 和 Widrow 的 自 适应 性 元 件 Adaline; 1969 年 ，Minsky 和 Papert 合作 出 版 
了 颇 有 影响 力 的 著作 《感知 器 》， 书 中 暗示 感知 器 具有 严重 局 限 ， 得 出 了 消极 斐 观 的 论点 ,使 
感知 器 与 连接 主义 遭 到 冷落 ， 而 感知 器 是 神经 网 络 的 一 种 重要 形式 。 在 20 世纪 70 年 代 ， 人 
工 神经 网 络 的 研究 处 于 低潮 ，20 世纪 70 FRR, R -Hkk (Von Neumann) 数字 计 
算 机 在 模拟 视听 觉 的 人 工 智能 方面 遇 到 了 物理 上 不 可 和 逾越 的 极限 。 但 与 此 同时 ，Rumelhart、 
Mcclelland 和 Hopfield 等 人 在 神经 网 络 领域 取得 了 突破 性 进展 ， 神 经 网 络 的 热潮 再 次 掀起 。 





X0 





图 8-2 人工 神经 元 
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8.1.1 Rosenblatt 感知 器 


Rosenblatt 感知 器 是 由 美国 计算 机 科学 家 罗 和 森 布 拉 特 (FERosenblatt) 于 1957 年 提出 的 。 
F.Rosenblatt 经 过 证 明 得 出 结论 ， 如 果 两 类 模式 是 线性 可 分 的 ( 指 存在 一 个 超 平面 将 它们 分 
JP), WJTEGE— EUM SE. Rosenblatt 感知 器 特别 适用 于 简单 的 模式 分 类 问题 ， 也 可 用 于 基于 模 
式 分 类 的 学 习 控 制 。 

Rosenblatt 感知 器 建立 在 一 个 线性 神经 元 之 上 ， 神 经 元 模型 的 求 和 节点 计算 作用 于 突 触 
输入 的 线性 组 合 ， 同 时 结合 外 部 作用 的 偏 置 ， 对 若干 个 突 触 的 输入 项 求 和 后 进行 调节 。 


1. 基本 计算 过 程 
Rosenblatt 感知 器 的 基本 计算 步 又 如 下 : 
1 ) 将 数据 作为 输入 送 入 神经 元 。 
2 ) 通过 权 值 和 输入 共同 计算 诱导 局 部 域 ， 诱 导 局 部 域 是 指 求 和 节点 计算 得 到 的 结果 ， 
计算 公式 如 下 : 
v=% wx, +b 


3) 以 硬 限 幅 器 为 输出 函数 ， 诱 导 局 部 域 被 送 入 硬 限 幅 器 ， 形 成 最 终 的 输出 硬 限 幅 器 的 
工作 原理 如 下 。 
硬 限 幅 器 输入 为 正 时 ， 神 经 元 输出 +1， 反 之 输出 -1。 计 算 公 式 为 : 








l, v>0 
rO { ET f) 

硬 限 幅 器 函数 图 像 如 图 8-3 所 示 。 +1 

从 图 8-3 可 以 看 出 ， 在 最 终 的 计算 结果 中 ， 把 外 部 的 输 
入 zz 输出 为 两 类 ， 分 类 规则 是 : 如 果 输 出 函数 是 - 
+1， 则 为 类 1; 如 果 输 出 为 -1， 则 为 类 2。 感 知 器 被 超 平面 : ” 
分 为 两 类 ， 这 个 超 平面 为 ; | 

YS wx +b= 0 


图 8-3” 硬 限 幅 器 函数 图 像 

2. 权 值 修正 

在 上 述 计 算 过 程 中 ， 第 二 步 涉 及 一 个 重要 的 参数 ， 即 权 值 。 如 何 确定 权 值 才能 保证 输出 
能 被 正确 地 分 类 到 +1 和 -1 呢 ? 

首先 ， 会 产生 一 个 初始 权 值 ， 由 初始 权 值 计算 得 到 的 输出 结果 肯定 会 有 误差 。 接 着 ， 要 
想 办 法 让 误差 减少 ， 这 个 过 程 就 是 权 值 w 修正 的 过 程 。 

新 的 问题 产生 了 ， 哪 些 数 据 用 来 输入 呢 ? 在 用 神经 网 络 进行 机 器 学 习 时 ， 输 入 数据 是 确 
定 的 ， 但 输出 结果 是 未 知 的 ， 这 些 输出 结果 正 是 我 们 需要 用 神经 网 络 预测 的 结果 。 解 决 这 个 
问题 的 关键 在 于 样本 。 样 本 是 研究 中 实际 观测 或 调查 的 一 部 分 ， 研 究 对 象 的 全 部 称 为 总 体 ， 
样本 必须 能 够 正确 反映 总 体 情况 。 所 以 ， 首 先 要 用 样本 将 神经 网 络 训练 好 ， 在 确定 权 值 后 ， 
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再 用 训练 好 的 神经 网 络 对 未 知 输入 所 属 的 输出 进行 预测 。 权 值 修 正方 法 分 为 单 样本 修正 算法 
和 批量 修正 算法 。 
单 样本 修正 算法 的 步骤 为 : 神经 网 络 每 次 读 和 人 一 个 样本 ， 进 行 修正 ， 样 本 读 取 完 毕 ， 修 
正 过 程 结束 。 算 法 过 程 描述 如 下 : 
1) 设置 如 下 参数 : 
w(0)-0 
x(n)- CH, xi), 7^, xs (1))" 
w(n)=(b, wi(),- , ws (m) 
其 中 ，2 为 偏 置 ，x 为 输入 向 量 ，w 为 权 值 。 
2 ) 感知 器 激活 。 
对 于 每 个 时 间 步 上， 通过 输入 向 量 x (n) 和 期 望 输出 d(n) 激活 感知 器 。 
3 ) 计算 感知 器 的 输出 。 
y(ny-sgn(w'(n)x(n)) 


-f+ v>0 
SEU 4, vo 


其 中 , n 为 时 间 步 ，x(n) 为 输入 向 量 ，w(n) 为 权 值 向 量 ，sgn 为 硬 限 幅 函 数 ，v 为 硬 限 幅 
函数 的 输入 值 。 

4) 更 新 感知 器 的 权 值 向 量 。 

w(n+1)=w(n)+n(d(n)-y(n))x(n) 

0<1<1 
+, x(n) 属于 第 1 类 

4-7 x(n) 属于 第 2 类 
其 中 ,1 为 学 习 速 率 (调整 更 新 的 步伐 )。 
下 面 用 神经 网 络 学 习 逻 辑 或 的 运算 ， 用 Python 实现 上 述 算法 。 代 码 如 下 : 


$!/usr/bin/env python 
* -*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#8-1.py 
import numpy as np 
b=0 
az0.5 
x 三 np.array([[0,1,11,[0,1,0],[0,0,01,[0,0,11]]) 
d snp.array([1,1,0,1]) 
w-np.array([b,0,0]) 
def sgn(v): 
if v»0: 
return 1 
else: 
return 0 
def comy (myw, myx): 
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return sgn(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
return oldw+a* (myd-comy (oldw,myx))*myx 
iz0 
for xn in x: 
w-neww(w,d[i],xn,a) 
i+=1 
for xn in x: 
print "$d or $d => $d "$(xn[1],xn[2],comy (w, xn) ) 


如 下 程序 输出 结果 正确 。 
Ll or i21 
1 or Ü => 1 
0 or 0 => 0 
0 or 1 => I 


现在 来 测试 一 个 更 复杂 的 例子 。 针 对 下 面 两 类 函数 训练 神经 网 络 ， 将 一 组 (x, y) 值 划 分 
为 以 下 两 类 函数 之 一 : 

口 2x+1=y 为 第 1 类。 

口 7x+1=y 为 第 2 类 。 

代码 如 下 : 


$!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#8-2.py 
import numpy as np 
b-1 
a-0.3 
scenp.arrzayiti[D[1:1,3],t£2.2,5]41141,81;.11,2;1515 E1535 71; [1,4291 1) 
desnp.array([i,1,-1,-1,1,-1]) 
w-np.array([b,0,0]) 
def sgn(v): 
if v»50: 
return 1 
else: 
return -1 
def comy (myw,myx): 
return sgní(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
print comy (oldw,myx) 
return oldw-«a* (myd-comy (oldw,myx))*myx 


i-0 

for xn in x: 
print xn 
w-neww(w,d[i],xn,a) 
i«-1 
print w 


for xn in x: 
print "$d %d => $d "$(xn[1],xn[2],comy (w,xn)) 
test-np.array([b,9,19]) 
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print "$d  $d => %d "$(test[1],test[2],comy (w,test)) 
test-np.array([b,9,64]) 
print "€&d %d => $d "$(test[1],test[2], comy (w, test) ) 


在 上 面 代 码 中 ,使 用 了 [1,3 ]、[2,5 ]、[ L8]. [2.15 1, [3,7 ]. [4,29] 这 几 组 数据 对 该 
神经 网 络 进行 训练 。 运 行 该 程序 ， 对 从 未 在 样本 中 出 现 过 的 数据 [9,19 ], [9,64 ] 进行 分 类 。 
通过 前 面 的 函数 定义 可 以 知道 , [9,19] 属于 第 1%, [9,64 ] 属于 第 2 类 。 如 下 所 示 : 


9 i19 =s 1 
9 64 => -1 


接着 输出 训练 之 后 的 神经 网 络 权 值 参数 ， 代 码 如 下 : 


>>> W 
array ([ 1. , 321.2, -0.6]) 


根据 上 述 参 数 ， 可 以 确定 神经 网 络 的 分 类 线 方程 为 : 
1.2x—0.6y+1=0=>1.2x+1=0.6y=>y = 2x4*1.68 
那么 对 于 不 完全 符合 上 述 两 个 函数 定义 的 数据 ， 通 过 训练 好 的 神经 网 络 也 能 近似 地 划分 





到 上 述 责 数 中 。 试 着 将 前 面 的 代码 修改 一 F, 加 和 两 [一 
个 不 太 规则 的 测试 数据 点 [9.16]、[ 9,60 ]， 并 把 样本 7 ] 
[ b2.5 ] 改 为 不 规则 的 [ b2,.3 ]， 同 时 加 入 绘图 命令 ， PT l | 
同时 加 入 绘图 命令 ， 绘 制 数据 点 ， 然 后 使 用 上 面 计算 al | 
的 分 类 线 方程 绘制 分 类 线 (这 样 能 直观 地 观察 结果 )， 30l "ud 
如 图 8-4 所 示 。 20 20 up J 

在 如 图 8-4 所 示 的 样本 数据 点 中 ， 大 的 圆 点 属于 10 eun 1 











第 2 类 ， 输 出 为 -1， 星 号 属于 第 1 类 ， 输 出 为 1 ; 在 oL ELI s 
测试 数据 点 中 ， 又 号 属于 第 2 类 ， 输 出 为 -1， 小 点 属 
于 第 1 类 ， 输 出 为 1。 中 间 的 虚线 就 是 分 类 线 ， 这 条 ”图 84 神经 网 络 分 类 ( 附 彩 图 ) 
分 类 线 把 坐标 系 内 的 点 分 成 为 两 类 ， 分 类 线 以 上 的 点 输出 为 -1， 以 下 的 点 输出 为 1, 训练 好 
的 神经 网 络 通过 这 条 分 类 线 决定 如 何 对 输入 所 属 的 分 类 进行 预测 。 

修改 后 的 Python 代码 如 下 : 


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
4$8-3.py 
import numpy as np 
import pylab as pl 
b-1 
az0.3 
xsnp.array(I[1,1,3].01,25,3],12,1;8], 12, 2,15], E1,3,71, [2,4, 29]]) 
d-np.array([1,1,-1,-1,1,-1]) 
w-np.array([b,0,0]) 
def sgn(v): 

3E exp 
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return 1 
else: 
return -1 
def comy (myw,myx): 
return sgní(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
return oldw+a* (myd-comy (oldw,myx))*myx 
i=0 
for xn in x: 
w-neww(w,d[i],xn,a) 


i+=1 
TEL[ st] 
myy-x[:,2] 


pl.subplot(111) 

x max-np.max(í(myx)-415 

x min-np.min(myx)-5 

y max-np.max (myy) +50 

y .min-np.min(myy)-5 
pl.xlabel (u"x") 

pl.xlim(x min, x max) 
pl.ylabel(u"y") 

pl.ylim(y min, y. max) 

for i in xrange(0,len(d)): 


if d[i]»0: 
pl.plot(myx[i], myy[i], 'r*') 
else: 
pl.plot(myx[i], myy[il, 'ro') 
# 绘制 测试 点 


test-np.array([b,9,19]) 
if comy(w,test)»0: 
pl.plot(test[1],test[2], 'b.') 
else: 
pl.plot(test[1],test[2], 'bx') 
test-np.array([b,9,64]) 
if comy(w,test)»0: 
pl.plot(test[1],test[2], 'b.') 
else: 
pl.plot(test[1],test[2], 'bx') 
test-np.array([b,9,16]) 
if comy(w,test)»0: 
pl.plot(test[1],test[2], 'b.") 
else: 
pl.plot(test[1],test[2], 'bx') 
test-np.array([b,9,60]) 
if comy(w,test)»0: 
pl.plot(test[1],test[2], 'b.') 
else: 
pl.plot(test[1],test[2],''bx') 
# 绘制 分 类 线 
testx-np.array(range(0,20)) 
testy-testx*241.68 
pl.plot(testx,testy,'g--') 
pl.show() 
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上 面 给 出 的 是 单 样 本 感知 器 算法 ,算法 仅 读 取 一 次 样本 ， 每 读 取 一 个 样本 ， 就 是 一 次 迭 
代 。 每 次 迭代 时 ， 只 考虑 了 用 一 个 训练 模式 修正 权 矢量 。 实 际 上 ， 可 以 将 几 个 训练 模式 一 起 
考虑 ， 而 批量 修正 算法 则 考虑 了 使 用 代价 函数 来 进行 分 类 误差 率 的 控制 。 批 量 修 正 算法 要 对 
样本 进行 多 次 读 取 ， 直 到 神经 网 络 的 误差 率 降 到 合适 的 程度 才 停止 样本 的 训练 ， 这 是 它 与 单 
样本 修正 算法 本 质 的 区 别 。 算 法 中 的 误差 率 使 用 最 直观 的 被 错 分 类 的 样本 数量 准则 。 

批量 修正 算法 的 核心 在 于 其 权 值 更 新 策略 。 批 量 修正 算法 采用 的 是 梯度 下 降 原 理 ， 其 计 
算 公式 为 : 

w(k+1)=w(k)-n(k) V J(w(k)) 
HE, (A 称 为 学 习 率 ，V JQw()) 为 梯度 ， 计 算 方法 为 : 
VJ(w(k)) = 2. (-») 


yet, 


其 中 ， 
Y, 被 错 分 类 的 样本 输出 值 集合 
最 终 得 出 权 值 更 新 策略 为 : 
w(k--1) 2 w(k) --n(k) Y, d * y (8-1) 


yer, 


在 上 式 中 ，d 为 样本 实际 输出 值 ，y 为 被 错 分 类 的 样本 的 输出 值 。 

具体 算法 过 程 如 下 : 

1) 初始 化 权 值 、 学 习 率 ， 以 及 期 望 误差 率 。 

2 ) 读 取 所 有 样本 数据 。 

3) 依次 对 样本 进行 训练 ， 更 新 权 值 ， 其 更 新 策略 如 式 (8-1) 所 示 。 

4) KAMOL Ad y 十 否 小 于 指定 误差 率 ， 或 者 训练 次 数 是 否 已 到 ， 如 果 没有 达到 误差 
率 的 要 求 且 训练 次 数 未 到 ， 转 到 第 2 步 执行 。 

继续 使 用 单 样本 修正 法 的 样本 ， 将 一 组 Ge, y). 的 输入 划分 为 以 下 两 类 函数 之 一 : 

O 2x*1-y 为 第 1 类 。 

口 7x+1=y 为 第 2 类 。 

下 面 用 Python 实现 这 个 神经 网 络 ， 其 中 加 入 了 一 个 不 规则 的 样本 数据 [ 1,2,3 ]， 最 后 用 
[9,19 ] 和 [3,22 ] 对 训练 成 功 后 的 网 络 进行 测试 。 





*!/usr/bin/env python 

4$ -*- coding: utf-8 -*- 
4$code:myhasplG8qq.com 
K8-4.py 

import numpy as np 

b-1 

a-0.5 

x = np.array(II[2,1,3],11,2,3],[1,1,8];[11,2,15]]) 
d -np.array([1;1,-1,-1]) 
w-np.array([b,0,0]) 
wucha-0 
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ddcount-50 
def sgn(v): 
if v»0: 
return 1 
else: 
return -1 
def comy (myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def tiduxz (myw,myx,mya): 
i-0 
sum x-np.array([0,0,0]) 
for xn in myx: 
if comy (myw,xn)!-d[i]: 
sum x«-d[i]*xn 
i+=1 
return mya*sum_x 
i=0 
while True: 
tdxz-tiduxz(w,x,a) 
w-w-tdxz 
i=i+1 
if abs(tdxz.sum())«-wucha or i»-ddcount:break 
test-np.array([1,9,19]) 
print "$d $d => $d "$(test[1],test[2],comy (w,test)) 
test-np.array([1,3,22]) 
print "£d $d => $d "$(test[1],test[2],comy (w, test) ) 


运行 程序 后 可 发 现 ， 训 练 效 果 很 好 ， 测 试 数据 被 正确 分 类 。 


919-251 
3 22 z» -L 
3.LMS 算法 


LMS 算法 全 称 为 least mean square 算法 ， 中 文 是 最 小 均 方 算法 。 在 ANN 领域 内 ， 均 方 
误差 是 指 样本 预测 输出 值 与 实际 输出 值 之 差 平方 的 期 望 值 ， 记 为 MSE, W observed 为 样本 真 
(E, predicted 为 样本 预测 值 ， 计 算 公 式 如 下 : 


MSE = AP (observed, — predicted, 小 
n tal 
LMS 算法 的 策略 是 使 均 方 误差 最 小 ， 该 算法 运行 在 一 个 线性 神经 元 上 ， 使 用 的 是 批量 修 
正 算法 ， 其 误差 信号 为 : 
e(n)-d(n)-X (nf (n) 
然后 在 误差 信号 的 基础 上 计算 梯度 向 量 ， 公 式 如 下 : 


On) 
Og (n) 
最 后 ， 生 成 权 值 调整 方案 。 公 式 如 下 : 


fp (n- y ff (n)*nX(n)e(n) 





——X(n)e(n) 
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在 上 式 中 ,wn 表示 学 习 率 ， 该 值 越 小 , LMS 算法 执行 得 越 精确 ， 但 同时 算法 收敛 速度 越 慢 。 
下 面 使 用 LMS 算法 实现 逻辑 或 运算 ,将 学 习 率 设 为 0.1。 代 码 如 下 : 


#!/usr/bin/env python 
=*=- coding: utf-8 -*- 
*code:myhaspl8qq.com 
#8-5.py 
import numpy as np 
b-1 
a-0.1 
x s np.arrey(L[t,1,1],[1,2,0],]12,0,1],11;8,0]]) 
a -np.asrray([1,1,1,01) 
w-np.array([b,0,0]) 
expect e-0.005 
maxtrycount-20 
def sgn(v): 
iE v0 
return 1 
else: 
return 0 
def get v(myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
return (oldw«a*mye*myx,mye) 
def get e(myw,myx,myd): 
return myd-get v (myw,myx) 
mycountz0 
while True: 
i mye=0 
iz0 
for xm im x: 
w,e-neww(w,d[i],xn,a) 
i+=1 
mye+=pow (e,2) 
mye/=float (i) 
mycount+=1 
print u" 第 td 次 调整 后 的 权 值 : "$mycount 
print w 
print u" 误差 : $f"$mye 
if mye«expect e or mycount»maxtrycount:break 
for xnun in x: 
print "£d or $d => $d "£(xn[1],xn[2],get v(w,xn)) 


下 面 是 程序 的 运行 结果 ， 可 以 看 出 ， 通 过 03 次 和 迭代， 训练 结束 ， 对 测试 值 的 输出 正确 。 


第 12 次 调整 后 的 权 值 : 
[-0.1 0.1 0.1] 
误差 : 0.500000 


第 13 次 调整 后 的 权 值 : 
[30.1 wi u.a] 
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误差 : 0.000000 
T or Ll e» 1 

l or 0 => I 

0 or 1 => 1 

0 ar 0 s» 9 
>>> 


另外 ， 可 应 用 LMS 算法 实现 比 逻 辑 与 更 复杂 的 算法 ， 比 如 : 在 输入 矩阵 中 ， 如 果 x 向 量 
的 整除 结果 为 6， 则 表示 为 一 类 ， 输 出 为 1; 若 结果 为 3 则 是 另 一 类 ， 输 出 为 -1。 代 码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
d$code:myhaspl8qq.com 
48-6.py 
import numpy as np 
b=1 
azD.1 
x = np.array(i(Il,1,6],.[1,2,12]1,11,3,9]., [1,824] ] ) 
d -np.array([1,1,-1,-1]) 
w-np.array([b,0,0]) 
expect e-0.005 
maxtrycount-20 
def sgn(v): 
if v»0: 
return 1 
else: 
return -1 
def get v(myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
return (oldw«a*mye*myx,mye) 
def get e(myw,myx,myd): 
return myd-get v(myw,myx) 
mycount-0 
while True: 
mye-0 
i-0 
for xn in x: 
w,e-neww(w,d[i],xn,a) 
i+=1 
mye+=pow(e,2) 
mye/=float (i) 
mycount+=1 
print u" 第 sd 次 调整 后 的 权 值 : "%mycount 
print w 
print u" RŽ: $f"$mye 
if abs(mye)«expect e or mycount»maxtrycount:break 
for xn in x; 
print "$d $d => $d "$(xn[1],xn[2],get, v(w,xn)) 
test-np.array([1,9,27]) 
print "$d sd => $d "$(test[1],test[2],get v(w,test)) 
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test-np.array([1,11,66]) 
print "$d $d => $d "$(test[1],test[2],get v(w,test)) 


通过 9 次 训练 后 ， 误 差 率 为 0， 用 样本 数据 和 测试 数据 进行 验证 ， 准 确 无 误 。 下 面 是 执 
行 结果 : 


第 8 次 调整 后 的 权 值 : 
[ 1.4 -2.8 0.6] 
误差 : 3.000000 

第 9 次 调整 后 的 权 值 : 
[ 1.4 -2.8 0.6] 
误差 : 0.000000 

1 6 => 1 
2 12 => 1 
3 9 => -1 

8 24 => -1 
9 27 5» -1 
11 66 => 1 


4. Rosenblatt 感知 器 的 局 限 性 
不 是 所 有 的 数据 都 能 被 Rosenblatt 感知 器 正确 分 类 。 比 如 说 下 面 的 样本 数据 : 


sx e np.array(i[[Il1,1,6],[1,3,1214,[1,3,9],[1,3,21], [1,2,16],T1,3,35]]) -np. 
array([1;1,-1;-1;1,-1]) 


应 用 LMS 算法 对 这 些 数据 训练 200 次 ， 效 果 仍 非常 差 ， 样 本 数据 和 测试 数据 都 无 法 正 
确 分 类 。 如 下 所 示 : 


第 199 次 调整 后 的 权 值 : 
[ 18. -17.2 0.8] 
误差 : 2.666667 
第 200 次 调整 后 的 权 值 : 
[ 18. -17.4 -0.8] 
误差 : 2.666667 
第 201 次 调整 后 的 权 值 : 
[ 18.4 -16.8 1.8] 
误差 : 2.666667 


1 6 => 1 

3 12 => -1 

3 9 => -1 

3 21 s» 1 

2 16 s» 1 

3 15 => -1 

9 27 em =L 
Ti 66 => -1 


为 什么 会 出 现 这 种 情况 ? 试 着 修改 8-6.py 的 样本 数据 ， 同 时 绘制 包括 这 些 点 的 散 点 图 。 
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#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
dtcode:myhaspl8qq.com 
#8-7 .py 
import numpy as np 
import pylab as pl 
bei 
áà-0.1 
x 三 np.atray(t[L,1,86T1,02;3;12]7,[D1,3,9]; D1;3;21]; la Y6] ;[,, 3,125112 
d enp.array([1,1,-1,-1,1,-1]) 
w-np.array([b,0,0]) 
expect e-0.005 
maxtrycount-200 
def sgn(v): 
if v»0: 
return 1 
else: 
return -1 
def get v(myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
return (oldw-«a*mye*myx,mye) 
def get e(myw,myx,myd): 
return myd-get v(myw,myx) 
mycount-0 
while True: 
mye-0 
i-0 
for xn in x: 
w,e-neww(w,d[i],xn,a) 
i+=1 
mye-«-pow(e,2) 
mye/-float(i) 
mycount-«-1 
print u" 第 sa 次 调整 后 的 权 值 : "Smycount 
print w 
print u" ik: $f"$mye 
if abs(mye)«expect e or mycount»maxtrycount:break 
for Ru dm oxi 


print "sd zd => $d "€$(xn[1],xn[21,get, v(w,xn)) 
test-np.array([1,9,27]) 
print "$d $d => $d "$(test[1],test[2],get v(w,test)) 
test-np.array([1,11,66]) 
print "$d $d => $d "$(test[1],test[2],get v(w,test)) 
myx-x[:,1] 
myy=x[:,2] 


pl.subplot(111) 

x max-np.max(myx)-«10 
x min-np.min (myx)-5 

y max-np.max(myy)-450 
y_min=np.min (myy) -5 

pl.xlabel(u"x") 
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pl.xlim(x min, x max) 
pl.ylabel (u"y") 
pl.ylim(y min, y max) 





# 绘制 样本 点 
for i in xrange(0,len(d)): 
if d[i]»0: 
pl.plot(myx[i], myy[i], 'r*') 
else: 
pl.plot(myx[i], myy[i], 'ro') 

# 绘制 测试 点 

test-np.array([1,9,27]) 

pl.plot(test[1],test[2], 'bx') 

test-np.array([1,11,66]) 

pl.plot(test[1],test[2], 'bx') 

pl.show() 

在 如 图 8-5 所 示 的 散 点 图 中 ， 实 心 圆圈 和 星 号 是 两 类 不 同 的 样本 点 ， 叉 号 为 测试 点 。 
在 这 张 图 中 ， 无 法 画 出 一 条 线 来 将 两 类 点 分 开 , R prr 
有 曲线 才能 将 它们 分 开 ， 但 线性 方程 根本 不 可 能 产 a 
生 的 曲线 ， 因 此 Rosenblatt 感知 器 不 适用 于 非 线 性 an 
分 类 。 E 

5. LMS 的 学 习 率 退火 算法 30 

模拟 退火 算法 来 源 于 固体 退火 原理 。 退 火 就 是 20 
将 材料 加 热 后 再 经 特定 速率 冷却 ， 目 的 是 增 大 唱 粒 10 205 





的 体积 ， 并 且 减 少 晶 格 中 的 缺陷 。 材 料 中 的 原子 原 2 
来 会 停留 在 使 内 能 有 局 部 最 小 值 的 位 置 ， 加 热 使 能 
量变 大 ， 原 子 会 离开 原来 位 置 ， 而 随机 在 其 他 位 置 
中 移动 。 退 火 冷 却 时 速度 较 慢 ， 徐 徐 冷 却 时 粒子 渐 趋 有 序 ， 原 子 有 可 能 找到 内 能 比 原先 更 低 
的 位 置 ， 最 后 在 常温 时 达到 基态 ， 内 能 减 为 最 小 。 

根据 Metropolis 准则 ， 粒 子 在 温度 T 时 趋 于 平衡 的 概率 为 e-AE/(kx7)， 其 中 EE 为 温度 7 
时 的 内 能 ，AE 为 其 改变 量 , 上 为 Boltzmann 常数 。 用 固体 退火 模拟 组 合 优 化 问题 ， 将 内 能 EE 
模拟 为 目标 函数 值 /， 温 度 了 演化 成 控制 参数 :， 即 得 到 解 组 合 优化 问题 的 模拟 退火 算法 : 由 
初始 解 i 和 控制 参数 初 值 1 开始 ， 对 当前 解 重复 进行 “产生 新 解 一 计算 目标 函数 差 一 接受 或 
舍弃 ”的 迭代 ， 并 逐步 衰减 1 值 ， 算 法 终止 时 的 当前 解 即 为 所 得 近似 最 优 解 ， 这 是 基于 蒙特 
卡 罗 迭 代 求 解法 的 一 种 启发 式 随机 搜索 过 程 。 退 火 过 程 由 冷却 进度 表 控 制 ， 包 括 控制 参数 的 
初 值 t 及 其 衰减 因子 At、 每 个 1 值 时 的 迭代 次 数 工 和 停止 条 件 5。 

针对 学 习 率 不 变化 、 收 敛 速 度 较 慢 的 情况 ， 即 可 使 用 退火 算法 方案 ， 让 学 习 率 随时 间 而 
变化 。 学 习 率 计算 公式 为 : 


图 8-5 HARI 


A SE —- 
t(n/c) 
下 面 应 用 退火 算法 对 代码 8-6.py 做 一 些 改动 ， 代 码 如 下 : 
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#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
dcode:myhaspl8qa.com 
$8-8.py 
import numpy as np 
import math 
bsl 
a020.1 
az0.0 
rz5.0 
x 三 np.array([[1,1,6],11,2,12],[1,3,9],[1,8,241]) 
d -np.array([1,1,-1,-1]) 
w-np.array([b,0,0]) 
expect, e-0.05 
maxtrycount-20 
mycount-0 
def sgn(v): 
if v»0: 
return 1 
else: 
return -1 
def get v(myw,myx): 
return sgní(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
a-za0/(1-«float (mycount)/r) 
return (oldw-«a*mye*myx,mye) 
def get e(myw,myx,myd): 
return myd-get v(myw,myx) 
while True: 
mye=0 
i-0 
for xn in x: 
w,e-neww(w,d[i],xn,a) 
i+=1 
mye+=pow (e, 2) 
mye=math. sqrt (mye) 
mycount+=1 
print u" 第 %d 次 调整 后 的 权 值 : "smycount 
print w 
print u" 误差 : $f"$mye 
if abs(mye)«expect e or mycount»maxtrycount:break 
for xm in xs 
print "$d $d => %d "t(xn[1],xn[2],get v(w,xn)) 
test-np.array([1,9,27]) 
print "$d $d => %d "$(test[1],test[2],get v(w,test)) 
test-np.array([1,11,66]) 
print "$d gsQ => $&d "$(test[1],test[2],get. v(w,test)) 


从 程序 运行 结果 来 看 ， 仅 仅 7 次 就 完成 了 训练 ， 训 练 次 数 大 大 减少 。 


第 6 次 调整 后 的 权 值 : 
wwaibbt.com r1 B B BD BL GO 


第 8 章 机 器 学 习 算 法 *%s* 245 


[ 1.28888889 -1.55238095 0.29642857] 
误差 : 3.464102 

第 7 次 调整 后 的 权 值 : 

[ 1.28888889 -1.55238095 0.29642857] 
误差 : 0.000000 

T 6 => 1 
2 12 = 1 
3 9 => -1 
8 24-2» -1 
9 27 2» -1 
11 66 => 1 


>>> 


8.1.2 梯度 下 降 


1. 梯度 下 降 概述 

上 一 节 中 曾 提 到 梯度 的 概念 ， 究 竟 什 么 是 梯度 和 梯度 下 降 呢 ? 

梯度 是 一 个 向 量 场 ， 标 量 场 中 某 一 点 上 的 梯度 指向 标量 场 增长 最 快 的 方向 ， 梯 度 的 长 度 
是 这 个 最 大 的 变化 率 。 梯 度 下 降 ， 就 是 利用 负 梯 度 方向 来 决定 每 次 迭代 的 新 的 搜索 方向 ， 从 
而 使 得 在 每 次 迭代 过 程 中 ， 都 能 让 待 优化 的 目标 函数 逐步 减 小 。 梯 度 下 降 法 使 用 的 是 二 范 数 
下 的 最 速 下 降 法 。 最 速 下 降 法 的 一 种 简单 形式 如 下 : 

x(k+1)=x(k)-a*g(k) 

其 中 ，a 称 为 学 习 速率 ， 可 以 是 较 小 的 常数 。g(hk) 是 x(k) 的 梯度 。 

机 器 学 习 算 法 效果 究竟 如 何 ， 或 者 说 误差 为 多 少 ， 可 以 用 误差 函数 (0) 来 度量 。 其 中 的 
参数 9 在 神经 网 络 中 可 以 理解 为 权 值 。 如 何 调整 权 值 9 以 使 得 .0) 取得 最 小 值 有 很 多 方法 ， 
梯度 下 降 法 是 按 下 面 的 步骤 进行 的 : 

1) 对 20 赋值， 这 个 值 可 以 是 随机 的 ， 也 可 以 让 0 是 一 个 全 零 的 向 量 。 

2) 改变 9 的 值 ， 使 得 .1(0) 按 梯度 下 降 的 方向 进行 减少 。 

为 了 更 清楚 地 表达 ， 先 来 看 一 下 如 图 8-6 所 示 的 误差 曲面 及 梯度 下 降 图 。 

图 8-6 是 表示 参数 9 与 误差 函数 .A0) 关系 的 图 ， 也 称 误差 曲面 图 。 该 图 上 的 方向 表明 ， 
随 着 迭代 次 数 的 增加 ， 误 差 走 向 了 曲面 的 最 小 误差 点 。 

红色 较 凸 起 的 部 分 是 表示 (0) 有 着 比较 高 的 取 值 ， 对 其 进行 神经 网 络 训练 时 ， 最 完美 的 
目标 是 : 让 J(0) 的 值 尽量 低 ， 降 到 最 低 处 ， 也 就 是 最 四 的 部 分 。 00、91 表示 9 向 量 的 两 个 维度 。 

梯度 下 降 法 的 第 一 步 是 给 9 一 个 初 值 ， 假 设 随机 给 的 初 值 是 在 最 高 的 十 字 点 处 ; 然后 
将 9 按照 梯度 下 降 的 方向 进行 调整 ， 就 会 使 得 (0) 往 更 低 的 方向 变化 ， 如 图 8-7 所 示 。 算 法 
的 结束 将 是 在 0 下降 到 无 法 继续 下 降 为 止 。 当 然 ， 可 能 梯度 下 降 的 最 终点 并 非 是 全 局 最 小 点 
(图 8-6 的 路 径 中 的 最 后 一 个 点 )， 而 是 一 个 局 部 最 小 点 (图 8-7 的 路 径 中 的 最 后 一 个 点 )， 比 
如 图 8-7 所 示 的 情况 ， 而 图 8-6 中 的 曲线 路 径 则 是 完美 的 梯度 下 降 过 程 。 

图 8-7 中 所 示 的 这 种 情况 是 在 神经 网 络 训练 中 要 尽量 避免 出 现 的 ， 这 里 的 梯度 下 降 到 局 
部 最 小 点 后 停止 ， 神 经 网 络 在 一 个 不 正确 的 位 置 收 剑 了 ， 训 练 停止 ， 这 时 即使 继续 训练 也 没 
有 任何 效果 。 
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Gradient Descent Algorithm 





图 8-6 ”误差 曲面 及 梯度 下 降 ( 附 彩 图 ) 





图 8-7 落 到 局 部 最 小 点 的 梯度 下 降 ( 附 彩 图 ) 


2. 梯度 下 降 法 涉及 的 数学 知识 

1 ) 导数 的 几何 意义 : 导数 的 几何 意义 在 于 ， 
函数 在 某 一 点 的 导数 等 于 它 的 图 像 上 这 一 点 处 之 切 
线 的 斜率 ， 如 图 8-8 所 示 。 

其 斜率 为 : 











fx * Ax) - f 03) 
Ax 


2) 积分 的 几何 意义 : 对 于 一 个 给 定 的 正 实 值 图 8-8 导数 
wwaibbt.com DODDODODD 


tana = lim tan o = lim 
Ax 一 0 Ax—0 
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BB fo), foo) 在 一 个 实数 区 间 [ a,b] 上 的 定 积分 为 : 
Jj fend 
定 积分 的 几何 意义 可 以 理解 为 在 Oxy 坐标 平面 上 ， 由 曲线 (x, Xe) 、 直 线 =a, xb 以 及 x 
轴 围 成 的 曲 边 梯形 的 面积 ， 这 个 面积 可 以 是 一 块 面积 ， 也 可 以 是 多 块 面积 的 和 (注意 ， 这 里 
的 面积 有 正 负 之 分 )。 
3) 微分 的 几何 意义 : 一 元 函数 的 微分 与 自 变量 的 微分 之 商 等 于 该 函数 的 导数 ， 所 以 导 
数 也 叫做 微 商 。 
设 Ax 是 曲线 yf) 上 的 点 P 在 模 坐 标 上 的 增 量 ，Ay 
是 曲线 在 点 处 相对 于 Ax 的 纵 坐 标 增 量 ，dy 是 曲线 在 点 P 
的 切线 对 应 Ax 在 纵 坐 标 上 的 增 量 ， 如 图 8-9 所 示 。 
4) 偏 导数 : 拥有 多 个 自 变量 的 函数 的 偏 导数 是 指 在 保持 
其 他 自 变 量 恒定 的 情况 下 ， 该 函数 相对 于 其 中 某 个 自 变量 的 
导数 。 函 数 /关于 变量 x 的 偏 时 数 写 为 疡 或 二。 NN 
/是 一 个 多 元 函数 。 例 如 : NEZ 
fx, y)ex tryty 图 8-9 微分 
因为 曲面 上 的 每 一 点 都 有 无 穷 多 条 切线 ， 描 述 这 种 函数 的 导数 相当 困难 。 偏 导数 就 是 和 
择 其 中 一 条 切线 ， 并 求 出 它 的 斜率 。 
FARRE Ae, a) 在 点 Casas) 处 ， 对 于 某 个 自 变量 总 的 偏 导数 ， 其 定义 为 
f Ga) olim RN, 
Ox, h0 h 
5) 梯度 : 欧 几 里 得 空间 R" 中 的 函数 fx1…, a 对 每 个 自 变 量 x 具有 偏 导 数 016x;， 在 点 
a 处， 这 些 偏 导数 定义 了 一 个 向 量 : 





vf(a)- (LoLa) 


这 个 向 量 称 为 /在 点 a 处 的 梯度 。 
3. 梯度 下 降 的 原理 
如 果实 值 函数 F(x) 在 点 a 处 可 微 且 有 定义 ,那么 该 函数 在 a 点 沿 着 梯度 相反 的 方向 下 降 
最 快 ， 从 函数 下 对 局 部 极 小 值 的 初始 估计 值 xo 出 发 ， 存 在 如 下 序列 xo xi x2,…， 使 得 
Xnti=Xn—yn V F(Xn),n = 0 
因此 可 得 到 
F(xo) z F(x) > F(x;) 三 … 
如 果 顺 利 的 话 ， 序 列 OX.) 将 收敛 到 期 望 的 极 值 。 
4. 梯度 下 降 和 delta 法 则 
delta 法 则 克服 了 感应 带 法 则 的 不 足 ， 在 线性 不 可 分 的 训练 样本 上 ， 可 以 有 效 地 收敛 ,并 
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接近 目标 的 最 佳 近似 值 。delta 法 则 的 关键 思想 是 : 使 用 梯度 下 降 来 搜索 可 能 的 权 向 量 假设 空 
间 ， 以 找到 最 佳 拟 合 训练 样 例 的 权 向 量 。 

delta 法 则 为 反 向 传播 算法 提供 了 基础 ， 而 反 向 传播 算法 能 够 学 习 多 个 单元 的 互连网 络 ， 
在 包含 多 种 不 同类 型 的 连续 参数 化 假设 的 空间 中 ， 梯 度 下 降 是 必须 遍历 这 样 的 空间 的 所 有 算 
法 的 基础 。 

误差 曲面 是 一 个 抛物 面 ， 存 在 一 个 单一 全 局 最 小 值 ， 梯 度 下 降 搜索 从 一 个 任意 的 初始 权 
向 量 开 始 ， 然 后 沿 误差 曲面 最 陡峭 下 降 的 方向 ， 以 很 小 的 步伐 反复 修改 这 个 向 量 ， 直 到 得 到 
全 局 的 最 小 误差 点 。 


5. 基于 梯度 下 降 的 线性 分 类 器 

下 面 总 结 一 下 前 面 介 绍 的 线性 神经 网 络 代码 ， 并 将 它们 整理 成 Python 模块 mplannliner, 
然后 引入 这 个 模块 ， 实 现 对 一 组 输入 的 线性 分 类 。 以 下 程序 有 详细 的 注释 说 明 。 

#!/usr/bin/env python 


4t-*- coding: utf-8 -*- 
$code:myhaspl8qq.com 


#8-9.py 
import mplannliner as nplann 
traindatal=f tasSlesllatl Lon -Ty p3 A SN Ta AA] ETA, 6 


5],1],[[20,59],1]1, [I9,41],1],[1[12,60],1], [(2,37] 11] 
myann-nplann.Mplannliner() 
# 样本 初始 化 
myann.samples init(traindatal) 
# 学 习 率 初始 化 
myann.a init(0.1) 
# 搜索 时 间 常 数 初 始 化 
myann.r init(50) 
# 最 大 训练 次 数 
myann.maxtry init(500) 
# 期 望 最 小 误差 
myann.e init(0.05) 
# 训练 
myann.train() 
# 仿真 ， 测 试 ， 对 未 知 样本 分 类 
myc-myann.simulate([35,68]) 
print "[35,68]" 
if myc--1: 
print u" EX" 
else: 
print u" A% v 
# 将 测试 点 在 最 终 效果 图 上 显示 出 来 ， 将 它 加 入 drawponint 集 ， 测 试点 表现 为 "*"， 并 且 色 彩 由 其 最 终 的 
分 类 结果 而 决定 
myann.drawponint add([35,68]) 
myc-myann.simulate([35,82]) 
print "[35,82]" 
if myc--1: 
print u" EX" 
else: 
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print u" fk X " 
myann.drawponint add([35,82]) 
myann.draw2d() 


# 下 面 直接 使 用 默认 参数 进行 训练 : 
traindata2-[IT9,25,30],-1].,[[5;8,12];-1];,[[115,341,49],-1],[[35,62,1087], 
-11,[[19,40,60],-1]1,1[28,65,98],11, [[20,59,72], 1], [[9,41,38],11, [[12, 60, 46], 1] , [[2, 37, 
181,11] 
myann2-nplann.Mplannliner() 
myann2.samples init(traindata2) 
myann2.train() 
myc-myann2.simulate([35,68,110]) 
print "[35,68,110]*" 
if myc--1: 
print u" EX " 
else: 
print u" fX " 


如 图 8-10 所 示 是 程序 运行 生成 的 效果 图 ， 虚 线 是 分 类 线 ， 它 清晰 地 将 不 同类 的 点 分 成 
了 上 下 两 部 分 。 星 号 为 测试 数据 ， 可 以 看 到 ， 已 uber 
被 正确 分 类 。Rosenblatt 感知 器 对 线性 分 类 效果 还 [myhaspl@qq.com]http://blog.csdn.net/u010255642 
是 不 错 的 。 
mplannliner 模块 的 代码 如 下 : 


#!/usr/bin/env python 
4-*- coding: utf-8 -*- 
$tcode:myhaspl8qq.com 
fauthor: 麦 好 
#2013=07=25 

import numpy as np 
import math 


import matplotlib.pyplot as plt 0 


class Mplannliner: 0 5 10 15 20 25 30 35 40 





def _ init, (self): 
self.b-1 图 8-10 ”线性 分 类 效果 
self.a0-0.1 
self.a-0.0 
self.r-20.0 
self.expect, e-0.05 
self.traincount-100 
self.testpoint-[] 

def testpoint init(self): 
self.testpoint-[] 

def e init(self,mye): 
self.expect e-mye 

def samples init(self,mysamples): 
my x -[] 
my d -[] 
my w -[self.b] 
myexamp-mysamples 
for mysmp in myexamp: 
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tempsmp- [1]-«mysmp[0] 
my x.append(tempsmp) 
my d.append(mysmp[í1]) 
for i in range(len(my x[0])-1): 
my w.append(0.0) 
self.x - np.array (my x) 
self.d - np.array (my, d) 
self.w = np.array (my w) 
def a init(self,mya): 
self.a0-mya 
def r init(self,myr): 
self.r-myr 
def maxtry init(self,maxc): 
self.traincount-maxc 
def sgn(self,v): 
if v»0: 
return 1 
else: 
return -1 
def get v(self,myw,myx): 
return self.sgní(np.dot (myw.T,myx)) 
def neww(self,oldw,myd,myx,a,mycount): 
mye-self.get e(oldw,myx,myd) 
self.a-self.a0/(1«mycount/float(self.r)) 
return (oldw-«a*mye*myx,mye) 
def get e(self,myw,myx,myd): 
return myd-self.get v(myw,myx) 
def train(self): 
mycount-0 
while True: 
mye-0 
3:50. 
for xn in self.x: 
self.w,e-self.neww(self.w,self.d[i],V 
xn,self.a,mycount) 
i+=1 
mye«-pow(e,2) 
mye-math.sqrt (mye) 
mycount-«-1 
print u" 第 £d 次 调整 中 … 误 差 : $f"% (mycount,mye) 
if abs(mye)«self.expect e or mycount»self.traincount: 
if mycount»self.traincount: 
print "已 经 达到 最 大 训练 次 数 : $a" $mycount 
break 
def simulate(self,testdata): 
if self.get v(self.w,np.array([1]«testdata))»0: 
return 1 
else: 
return -1 
def drawponint add(self,point): 
self.testpoint.append(point) 


def draw2d(self): 
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temp x-[] 
temp y-[] 
i=0 
for mysamp in self.x: 
temp x.append (mysamp[1] ) 
temp_y .append (mysamp[2]) 
if self.d[i] > 0: 
plt.plot (mysamp[1],mysamp[2], "or") 
else: 
plt.plot (mysamp[1],mysamp[2], "og") 
i4-1 
mytestpointx-[] 
mytestpointy-[] 
for addpoint in self.testpoint: 


if self.simulate(addpoint)--"«": 
plt.plot(addpoint[0],addpoint[1], '*r') 
else: 
plt.plot(addpoint[0],addpoint[1], '*g') 


mytestpointx.append (addpoint[0]) 
mytestpointy.append(addpoint[1]) 


x max-max(max(temp x),max(mytestpointx))-45 
x min-min(min(temp x),min(mytestpointx)) 
y .max-max (max(temp. y),max(mytestpointy))45 
y .min-min(min(temp y),min(mytestpointy)) 
if x min »0: 
x min-0 
if y min >0: 
y min-0 
plt.xlabel(u"x1l") 
plt.xlim(x min, x max) 
plt.ylabel(u"x2") 
plt.ylim(y min, y max) 
plt.title("ANN-LINER[red:-« green:-]" ) 
lp.xl = [x min, x max] 
lp x2 - [] 
myb-self.w[0] 
mywl-self.w[1] 
myw2-self.w[2] 
myy-(-myb-mywl1*lp x1[0])/float (myw2) 
lp x2.append (myy) 
myy-(-myb-mywl*lp x1[1])/float (myw2) 
lp x2.append (myy) 
plt.plot(lp x1, lp x2, 'b--"') 
plt.show() 


8.1.3” 反 向 传播 与 多 层 感知 器 . 


1. 反 向 传播 算法 
反 向 传播 算法 对 梯度 下 降 法 进行 了 改进 ， 主 要 由 两 个 环节 (激励 传播 、 权 重 更 新 ) 反复 
循环 迭代 ， 直 到 网 络 对 输入 的 响应 达到 预定 的 目标 范围 为 止 。 它 可 用 来 学 习 多 层 网 络 的 权 
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值 ， 通 过 搜索 一 个 巨大 的 假设 空间 (这 个 空间 由 网 络 中 所 有 单元 的 所 有 可 能 权 值 定义 ) 得 到 
误差 曲面 。 在 多 层 神经 网 络 中 ,误差 曲面 存在 全 局 最 小 值 ， 但 也 可 能 存在 多 个 局 部 极 小 值 ， 
梯度 下 降 法 不 能 保证 收敛 到 全 局 极 小 值 ， 但 反 向 传播 算法 较 好 地 解决 了 这 个 问题 ， 在 实践 中 
有 出 色 的 效果 。 反 向 传播 算法 有 以 下 特点 : 

1) 网 络 中 的 每 个 神经 元 模型 包括 一 个 非 线性 激活 函数 ， 非 线性 是 光滑 的 ( 即 处 处 可 微 ) 
也 是 必要 的 ， 否 则 网 络 的 输入 输出 关系 会 被 归结 为 单 层 感知 器 。 

2) 网 络 包括 一 层 或 多 层 神经 元 的 隐 层 ， 它 不 负责 网 络 的 输入 输出 。 这 些 隐 层 神经 元 逐 
步 从 输入 向 量 中 提取 有 用 特征 ， 使 网 络 学 习 复 杂 的 任务 。 

3 ) 网 络 的 连接 强度 由 网 络 突 触 决定 。 

反 向 传播 算法 的 主要 过 程 如 下 : 

1 ) 激励 传播 过 程 。 在 神经 元 的 激活 函数 输入 处 应 用 诱导 局 部 域 v(n)， 定 义 如 下 : 

y =P w, 00 
这 个 过 程 完成 逐 层 从 输入 层 传播 至 输出 层 的 任务 。 
2) 权重 更 新 过 程 。 对 每 层 的 神经 元 的 权 值 进行 修正 ， 公 式 如 下 : 
A wi(n)-nó my) 

Jb, Awn 是 指 神经 元 i 连接 到 神经 元 j 的 突 触 产 的 权 值 的 校正 值 , RED 
6(n) 是 局 部 梯度 。 

反 向 传播 算法 的 过 程 如 下 : 

从 建立 一 个 具有 期 望 数量 的 隐藏 单元 和 输出 单元 的 网 络 开始 ， 初 始 化 所 有 的 网 络 的 权 值 
为 较 小 的 随机 数 (0 ~ 1 的 实数 ) ; 然后 ， 给 定 一 个 固定 的 网 络 结构 ; 最 后 ,算法 的 主 循环 对 
训练 样 例 进行 反复 迄 代 ， 对 于 每 一 个 训练 样 例 ， 它 会 应 用 目前 的 网 络 到 这 个 样 例 中 ， 并 计算 
出 对 这 个 样 例 网 络 输出 的 误差 ， 更 新 网 络 中 所 有 的 权 值 ， 然 后 对 这 样 的 梯度 下 降 步 又 进行 迭 
代 ， 直 到 网 络 的 性 能 达到 可 接受 的 精度 为 止 。 

但 该 算法 存在 局 限 性 ， 仍 然 无 法 摆脱 陷 人 局 部 最 小 误差 的 地 步 。 因 此 ， 要 在 此 基础 上 增 
加 冲 量 (动量 ) 项 。 通 过 修改 权 值 更 新 法 则 ， 使 第 ”次 迭代 时 权 值 的 更 新 受到 第 n-1 次 迭代 
的 影响 ， 即 本 次 迁 代 的 更 新 值 的 计算 ， 有 部 分 参数 来 自 于 上 次 选 代 的 更 新 值 ， 这 样 ， 冲 量 有 
时 会 滚 过 误差 曲面 的 局 部 极 小 值 ， 并 在 梯度 不 变 的 区 域内 逐渐 增 大 搜索 步 长 ， 加 快 收敛 ， 从 
而 减少 训练 次 数 。 


2. 多 层 感 知 器 网 络 

多 层 感知 器 利用 非 线性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 输 出 端 可 以 直接 使 用 非 线 性 神经 
元 ， 也 可 以 使 用 线性 神经 元 。 如 图 8-11 所 示 是 一 个 拥有 两 个 隐藏 层 的 多 层 感知 器 网 络 。 

在 图 8-11 中 ， 网 络 由 输入 层 、 隐 藏 层 及 输出 层 构成 ， 它 能 够 表示 种 类 繁多 的 非 线性 曲 
面 ， 多 层 网 络 能 在 隐藏 层 自动 发 现 并 被 有 效 表 示 。 它 允许 学 习 器 创造 出 设计 者 没有 明确 引入 
的 特征 ， 网 络 中 使 用 的 单元 层 越 多 ， 可 以 创造 出 的 特征 越 复杂 。 

多 层 感 知 器 的 激活 函数 及 局 域 梯度 如 下 。 
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输入 层 第 一 隐 层 第 二 隐 层 输出 层 
图 8-11 多 层 感知 器 网 络 


1) logistic Æt, logistic 函数 的 定义 为 ， 
1 
"Pt 


' X. ff sigmoid 曲线 (S 形 曲 线 )， 如 图 8-12 所 示 是 它 的 图 像 ， 很 像 字母 So 


logistic 函 数 











—30 zin E 0 T à d 
图 8-12 sigmoid 曲线 ( 附 彩 图 ) 
在 多 层 感知 器 中 ，logistic 函数 可 作为 神经 元 7 的 激活 函数 o'n), CELH: 


1/ = — —' 
9;(o,(1) - | exp(-av (n) 5 


EH, on) 是 神经 元 j 的 诱导 局 部 域 。 

logistic 函数 的 局 部 梯度 需要 分 两 种 情况 定义 : 

第 一 种 情况 ， 神 经 j 没有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 ; 
ó(n)-a(d(n)-oj(n))o((m)(1—o(n)) 

第 二 种 情况 ， 神 经 /位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
8,00)-ay (nXl — y, (2,0, (wy (n) 
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2) tanh 函数 。tanh ( 双 曲 正切 ) 函数 的 数学 定义 为 : 


e'-e"* 
sinh x = ——— 





2 
cosh x = ere” 
2 
tanh x = sinh) 
cosh(x) 
双 曲 正切 函数 的 图 像 如 图 8-13 所 示 。 
logistic K 





ee 





1 L| 1 
—30 —20 —10 0 10 20 30 
图 8-13” 双 曲 正切 函数 


在 多 层 感知 右 中 ， 双 曲 正切 函数 可 作为 神经 元 的 激活 函数 g'i(v(n))， 它 定义 为 : 
pi(v;(n))=atanh(bv;(n)) 

其 中 ,a 和 4 为 正 的 常数 值 ，vj(n) 是 神经 元 7 的 诱导 局 部 域 。 

双 曲 正切 函数 的 局 部 梯度 需要 分 两 种 情况 定义 : 

第 一 种 情况 ， 神 经 元 j 没有 位 于 隐藏 展 ， 则 局 部 梯度 定义 为 : 


8,0) - 3 (d,()-o (a —o (n)a(a +0, (m) 
第 二 种 情况 ， 神 经 / 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
8,0) - (d— (at y DES, (yw, C) 
k 


前 面 说 过 ， 多 层 感 知 咒 利用 非 线 性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 非 线性 神经 元 使 用 双 
曲 正切 函数 或 logistic 函数 作为 激活 函数 ， 使 用 非 线 性 神经 元 或 使 用 线性 神经 元 组 成 输出 层 。 
多 层 感知 器 的 训练 需要 很 多 样本 ， 其 中 每 个 样本 的 学 习 过 程 分 为 前 向 计算 和 反 向 计算 。 

前 向 计算 根据 权 值 矩阵 由 前 向 后 一 层 层 神经 元 地 推进 ， 每 次 推进 根据 权 值 计 算 每 层 的 输出 
值 ; 反 向 计算 根据 输出 结果 与 目标 输出 的 误差 来 由 后 向 前 调整 神经 网 络 的 权 值 ， 引 入 冲 量 作为 
神经 网 络 权 值 调 整 的 依据 之 一 ， 冲 量 (动量 ) 参数 既 可 以 调整 学 习 速度 ， 还 能 体现 时 间 延 迟 。 

整个 算法 过 程 也 是 反 向 传播 算法 的 过 程 ， 通 过 使 用 梯度 下 降 方法 搜索 可 能 假设 的 空间 ， 
迭代 减 小 网 络 的 误差 以 拟 合 训练 数据 。 
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如 果 不 调用 神经 网 络 的 中 间 库 ， 自 己 编写 所 有 的 代码 ， 需 要 把 握 好 以 下 要 点 : 

1) 学 习 率 和 动量 参数 。 输 入 层 、 输 出 层 、 中 间 层 的 学 习 率 和 动量 参数 不 同 。 输 出 层 的 
学 习 率 较 低 ， 动 量 参数 较 高 ; 输入 层 的 学 习 率 较 低 ， 动 量 参数 较 低 。 

2) 权 值 。 权 值 矩 阵 非常 重要 ， 一 个 好 的 权 值 矩 阵 能 使 网 络 快速 收敛 ， 让 网 络 更 稳定 。 
关于 权 值 初始 化 的 策略 ， 可 以 选择 以 下 几 种 方法 : 

口 随机 初始 化 。 

口 逐步 搜索 法 。 

口 Nguyen-Widrow 初始 化 算法 ，MATLAB 使 用 Nguyen-Widrow 权 值 矩阵 初始 化 算法 。 

3) 输出 层 处 理 ， 为 了 确保 输出 层 输 出 的 数据 符合 预测 结果 的 要 求 ， 需 要 另外 的 函数 对 
输出 层 进行 处 理 。 在 线性 神经 网 络 中 ,通常 使 用 硬 限 幅 函数 ， 在 多 层 感 知 器 这 种 非 线性 神经 
网 络 中 既 可 以 使 用 硬 限 幅 ， 也 可 以 使 用 其 他 函数 ， 具 体 使 用 什么 函数 要 看 训练 效果 如 何 。 

4) 数据 预 处 理 。 输 入 数据 五 花 八 门 ， 在 训练 之 前 对 数据 进行 预 处 理 是 非常 必要 的 。 通 
过 预 处 理 权 值 矩阵 使 进入 神经 网 络 的 数值 不 会 过 大 或 过 小 ， 以 保证 通过 中 间 层 的 非 线性 神经 
元 时 ， 输 出 不 和 逼近 其 极限 。 

先 来 看 图 8-14， 上 面 显 示 的 数据 散乱 上 且 不 均匀 。 
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图 8-14 ”散乱 的 数据 


数据 预 处 理 的 目标 是 : 将 图 8-14 中 的 数据 转化 为 如 图 8-15 所 示 的 形式 ,数据 均匀 地 分 
布 在 坐标 系 中 ，4 个 象限 均 有 数据 存在 。 




















图 8-15 ”均匀 分 布 的 数据 
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前 面 讲 述 了 多 层 感 知 器 的 理论 基础 ， 下 面 用 Python 实现 一 个 多 层 感知 器 ， 理 论 联系 实 
践 ， 这 样 才能 更 好 地 理解 反 向 传播 算法 和 多 层 感 知 器 。 这 里 要 实现 的 是 使 用 感知 器 将 一 组 数 
据 进 行 非 线 性 分 类 ， 具体 要 求 为 : 对 下 面 这 组 输入 数据 和 输出 目标 进行 训练 ， 对 未 知 数据 进 
行 仿真 测试 。 


x = [[4,11], [7,340], [10,95], [3,29], [7, 43] , [5, 128]] 
d z[[1,0], [0,1], [1,0], [0,1], [1,0], [0, 11] 


为 了 简化 实现 过 程 ， 使 用 原始 的 纯 随 机 生成 方法 产生 多 层 感知 器 网 络 的 权 值 矩阵 。 权 
值 初始 值 既 要 保证 权 值 矩 阵 实 现 输入 项 在 网 络 中 均匀 分 布 ， 又 要 保证 权 值 矩阵 本 身 的 均匀 分 
布 。 为 达到 这 个 目的 ， 随 机 生成 若干 个 权 值 矩阵 ， 然 后 从 中 选择 最 优化 的 权 值 矩阵 。 最 优化 
的 标准 为 : 

1) 对 于 输入 层 的 权 值 设计 ， 要 尽量 使 输入 数据 的 方差 接近 1。 此 外 ， 对 于 相差 较 大 的 样 
本 ， 将 它们 处 理 为 分 布 不 太 接近 饱和 的 可 供 训练 的 输入 数据 。 

2) 权 值 矩 阵 的 均值 要 尽 可 能 小 ， 其 方差 尽 可 能 与 神经 元 的 突 触 连接 数 成 反比 。 

同时 ， 要 考虑 到 数据 的 预 处 理 ， 需 要 在 输入 层 前 设置 一 个 预 处 理 权 值 矩阵 ， 所 有 的 输入 
经 过 预 处 理 权 值 矩 阵 处 理 后 进入 多 层 感知 器 的 输入 层 。 代 码 如 下 : 


# 对 输入 数据 进行 预 处 理 
ann max-[] 
for m ani in xrange(O0,warray txn): 
temp x-np.array (train x) 
ann max.append(np.max(temp x[:,m ani])) 
ann max-np.array (ann, max) 
def getnowsx(mysx,in, w): 
trt 生成 本 次 的 扩 维 输入 数据 
global warray_n 
mysx-np.array (mysx) 
x end-[] 
for i in xrange(0,warray n): 
x end.append(np.dot(mysx,in w[:,i]l)) 
return x end 


def get inlw(my train max,w count,myin x): 
trt 计算 对 输入 数据 预 处 理 的 权 值 ''， 
# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 
global warray txn 
global warray n 
mylw-[] 
y .in-[] 
# 生成 测试 权 值 
mylw-np.random.rand(w count,warray txn,warray. n) 
for ii in xrange (0,warray txn): 


mylw[:,ii,:]emylw[:,ii,:]*1/float (my train max[iil)-wN 
1/float (my train max[ii])*0.5 
# 计算 输出 


for i in xrange(0,w count): 
y in.append([l) 
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y .in[i].append(getnowsx(myin x[xjl,mylw[il)) 


# 计算 均 方 差 
mymin-10**5 
mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[il) 
if abs (myvar-1)«mymin: 
mymin-abs (myvar-1) 
mychoice-i 
# 返回 数据 整理 的 权 值 矩阵 


return mylw[mychoice] 
mylnww-get. inlw(ann max,300,train x) 


def get inputx(mytrain x,myin, w): 
o 将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 ''， 
end trainx-[] 
for i in xrange(0,len(mytrain x)): 


end trainx.append(getnowsx(mytrain x[i],myin w)) 


return end trainx 
x-get inputx(train x,mylnww) 
def get siminx(sim x): 
global mylnww 
myxx-np.array(sim x) 
return get inputx(myxx,mylnww) 
def getlevelw(myin x,wo n,wi n,w count): 
411 计算 一 层 的 初始 化 权 值 矩阵 
mylw-[] 
y. ins[] 
# 生成 测试 权 值 
mylw-np.random.rand(w count,wi n,wo n) 
mylw-zmylw*2.-1 
# 计算 输出 
for i in xrange(0,w count): 
y in.append([]) 
for xj in xrange(0,len(myin x)): 
x end-[] 
for myii in xrange(0,wo n): 


x end.append(np.dot(myin x[xj],mylw[i,:,myii])) 


y .in[i].append(x end) 
# 计算 均 方差 
mymin-10**3 
mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[i]) 
if abs (myvar-1)«mymin: 
mymin-abs (myvar-1) 
mychoice-i 
# 返回 数据 整理 的 权 值 矩阵 
csmylw=my lw [mychoice] 
return csmylw,y in[mychoice] 
ann w-[] 
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def init, annw(): 
global x 
global hidelevel count 
global warray n 
global d 
global ann w 
ann w-[] 
lwyii-np.array (x) 
for myn in xrange(0,hidelevel count): 
EX 
ann w.append([]) 
if myn--hidelevel count-1: 
for iii in xrange(0,warray n): 
ann w[myn].append([]) 
for jjj in xrange(0,warray. n): 
ann w[myn]l[iii].append(0.0) 
elif myn--hidelevel count-2: 
templw,lwyii-getlevelw(lwyii,len(d[0]),warray. n,200) 
for xii in xrange(Ü0,warray n): 
ann w[myn].append([]) 
for xjj in xrange(0,1len(d[0]1)): 
ann, w[myn] [xii].append(templw[xii,xjj]l) 
for xjj in xrange(len(d[0]),warray n): 
ann w[myn][xii].append(0.0) 
else: 
templw,lwyii-getlevelw(lwyii,warray. n,warray n,200) 
for xii in xrange(0,warray n): 
ann w[myn].append([]l) 
for xjj in xrange(0,warray n): 
ann w[myn][xii].append(templw[xii,xjjl) 
ann, w-«np.array (ann, w) 
def generate lw(trycount): 
global ann w 
print u" 产生 权 值 初始 矩阵 "， 
meanmin-1 
myann w-ann w 
alltry-30 
tryc-0 
while tryc«alltry: 
for i i in range(trycount): 
print ".", 
init annw() 
if abs(np.mean(np.array (ann w)))«meanmin: 
meanmin-abs (np.mean(np.array(ann w))) 
myann w-ann w 
tryc«-1 
if abs(np.mean(np.array (myann w)))«0.008:break 
ann w-myann w 
print 
print u" 权 值 矩阵 平均 :$£"$ (np. mean (np. array (ann, w))) 
print u" RHEE Æ :Sf"$(np.var(np.array (ann w))) 
generate lw(15) 
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此 外 ， 只 需要 输出 一 个 值 ， 在 这 里 不 使 用 硬 限 幅 函数 ， 而 是 返回 最 大 值 的 索引 ， 因 此 需 
要 编写 对 输出 值 进 行 最 后 加 工 的 函数 (注意 ， 为 了 由 浅 入 深 讲解 ， 从 现在 直到 后 面 明确 声明 ， 
误差 率 的 计算 以 最 后 此 函数 的 输出 结果 为 标准 )。 该 函数 的 定义 如 下 : 


def o func (myy): 
myresult-(] 
for i in xrange(0,len(myy)): 
mean-np.mean (myy) 
if myy[i]»mean: 
myresult.append(1.0) 
else: 
myresult.append(0.0) 
return np.array (myresult) 


另外 ， 可 选择 tanh 函数 作为 非 线 性 神经 元 的 激活 函数 ， 它 的 输出 值 在 [ -1,1 ] 范围 内 。 
下 面 代码 完成 激活 函数 (ann atanh 函数 ) 及 其 局 部 梯度 (ann delta atanh 函数 ) 的 计算 。 


def ann atanh (myv): 
atanh, a-1.71594$»0 
atanh b=2/float(3)#>0 
temp rs-atanh a*np.tanh(atanh b*myv) 
return temp rs 
def ann delta atanh(myy,myd,nowlevel,level,n,mydelta,myw): 
anndelta-[] 
atanh, a-1.71594»50 
atanh_b=2/float (3)#>0 
if nowlevel--level: 


# 输出 层 

anndelta- (float (atanh b)/atanh. a) * (myd-myy) * (atanh, a-myy) * (atanh, a«myy) 
else: 

# 隐藏 层 

anndelta-(float (atanh b)/atanh, a) * (atanh, a-myy) * (atanh a«myy) 

temp rs-[] 


for j in xrange(0,n): 
temp rs.append(sum(myw[j]*mydelta)) 
anndelta-anndelta*temp rs 
return anndelta i 


下 面 介绍 反 向 传播 的 核心 算法 ， 算 法 分 为 前 向 计算 和 反 向 计算 两 个 过 程 。 代 码 如 下 : 


def sample train(myx,myd,n,sigmoid func,delta sigfun): 
C 一 个 样本 的 前 向 和 后 向 计算 ，，， 
global ann yi 
global ann delta 
global ann w 
global ann wjO 
global ann yO 
global hidelevel count 
global alllevel count 
global learn r 
global train a 
global ann oldw 
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level=hidelevel_count 
allevel-alllevel count 

# 清空 Yi 输出 信号 数组 
hidelevel-hidelevel, count 
alllevel-alllevel count 

for i in xrange(0,alllevel): 


# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange(0,n): 
# 第 二 维 是 神经 元 
ann yi[i][j]-0.0 


ann yi-np.array (ann yi) 
yi-ann yi 
# 清空 delta # E 


for i in xrange(0,hidelevel-1): 


for j in xrange(0,n): 
ann delta[i]l[jl-0.0 


delta-ann delta 

# 保 留 W EAE DL, DLE TI —dÓÁ3x X 
ann oldw-copy.deepcopy (ann w) 
oldw-ann oldw 


# 前 向 计算 


if isdebug:print u" 前 向 计算 中 ..." 

# 对 输入 变量 进行 预 处 理 
myo-np.array([l) 

for nowlevel in xrange(0,alllevel): 


# 一 层 层 向 前 计算 
# 计算 诱导 局 部 域 
my y-[] 
myy-yi[nowlevel-1] 
myw-ann w[nowlevel-1] 
if nowlevel==0: 
# 第 一 层 隐 藏 层 
my y-myx 
yi[nowlevel]-zmy y 
elif nowlevel--(alllevel-1): 
# 输出 层 
my_y=0_func (yi [nowleve1l-1,:1en(myQ)]) 
yi[nowlevel,:len(myd)]-my y 
elif nowlevel-- (hidelevel-1): 
# 最 后 一 层 输出 层 
for i in xrange(0,1len(myd)): 
temp y-sigmoid, func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel,:len(myd)]-my y 
else: 
# 中 间 隐 藏 层 
for i in xrange(0,len(myy)): 
temp y-sigmoid func (np.dot (myw[:,il,myy)) 
my y.append(temp y) 
yi[nowlevel]-my y 


if isdebug: 
print unwxxxxxx AFEA] AID HA Been 
print yi 
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print VQ MO e eoe e e e ke e e ke e he e e ke e ke e ke e e ke e ke ek e ke e e n n 
# 计算 误差 与 均 方 误差 
# 因为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结果 
myo-yi[hidelevel-1][:1len(myd)] 
myo end-yi[alllevel-1][:1len(myd)] 
mymse-get e(myd,myo, end) 
# 反 向 计算 
# 输入 层 不 需要 计算 delta, 输出 层 不 需要 计算 WwW 
if isdebug:print u" 反 向 计算 中 ..." 
# 计算 delta 
for nowlevel in xrange(level-1,0,-1): 
if nowlevel--level-1: 
mydelta-delta[nowlevel] 
my n-len (myd) 
else: 
mydelta-delta[nowlevel«1] 
my n-n 
myw-ann, w[nowlevel] 
if nowlevel--level-1: 
# 输出 层 
mydelta-delta sigfun(myo,myd,None,None,None,None,None) 
## mydelta-mymse*myo 
elif nowlevel--level-2: 
# 输出 隐藏 层 的 前 一 层 ， 传 输 相当 于 输出 隐藏 层 的 神经 元 数目 的 数据 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level- 
1,my n,mydelta[:len(myd)],myw[:,:1len(myd)]) 
else: 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level- 
1,my n,mydelta,myw) 


delta[nowlevel][:my n]2mydelta 
# 计算 与 更 新 权 值 W 
for nowlevel in xrange(level-1,0,-1): 
# 每 个 层 的 权 值 不 一 样 
if nowlevel--level-1: 
# 输出 层 
my n-len(myd) 
mylearn r-learn r*0.8 
mytrain a-train a*1.6 
elif nowlevel--1: 
# 输入 层 
my n-len(myd) 
mylearn r-learn r*0.9 
mytrain a-train a*0.8 
else: 
# 其 他 层 
my n-n 
mylearn r-learn r 
mytrain a-train a 


pre level myy-yi[nowlevel-1] 
pretrain myww-oldw[nowlevel-1] 


pretrain myw-pretrain myww[:,:my n] 
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# 第 二 个 调整 参数 
temp i-[] 


for i in xrange(0,n): 
temp i.append([l) 
for jj in xrange(0,my n): 
temp i[i].append (mylearn r*delta[nowlevel,jjl*pre. 
level myyI[il) 
temp rs2-np.array (temp i) 
temp rs1-mytrain a*pretrain myw 
# 总 调整 参数 
temp change-temp rsl«temp rs2 
my ww-ann w[nowlevel-1] 
my ww[:,:my. n]«-temp change 
if isdebug: 


print u'"*** 权 值 矩阵 xn 
print ann w 
print u"*** 梯度 矩阵 xen 


print delta 


return mymse 
还 需要 训练 神经 网 络 ， 并 读 取 测 斌 数据， 验证 效果 。 其 中 ， 训 练 神经 网 络 的 代码 如 下 : 


train() 
delta, sigfun-ann, delta atanh 
sigmoid_ func-ann.atanh 
i-0 
for xn in xrange(0,len(x)): 
print un 样本 : $d-$d => "£(train x[xn][0],train x[xn][11) 
print simulate(x[xn],sigmoid func,delta sigfun) 
print u"===== 正确 目标 值 =====" 
print d[i] 
i+=1 


验证 神经 网 络 的 代码 如 下 : 


test-np.array(get siminx([[8,70]])) 

print u" 测试 值 : sf SE "*(8,70) 

print simulate(test,sigmoid func,delta sigfun) 
print u" 正确 目标 值 : [1,0] 

test=np.array (get_siminx([[6.5,272]])) 

print u" MRH: sf $f "*(6.5,272) 

print simulate(test,sigmoid func,delta sigfun) 
print u" 正确 目标 值 :[0,1]" 

exitstr-raw input (u" 按 回 车 键 退出 ") 


运行 上 述 程序 ， 经 过 78 次 训练 ， 神 经 网 络 达 到 了 训练 目标 ,误差 率 为 0。 从 以 下 运行 
果 来 看 ， 效 果 不 错 。 
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误差 为 : 0.816497 
误差 为 : 0.577350 
误差 为 : 0.000000 


------- 开始 第 76 次 训练 --------- & * o" o» o*os 
Ra 开始 第 77 次 训练 =--------=- * 8493s 
------- 开始 第 78 次 训练 --------- & & * on on od 
训练 成 功 ， 正 在 进行 检验 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

训练 成 功 ， 误 差 为 : 0.000000 


[1, 0] 


仿真 计算 中 


[0, 1] 


仿真 计算 中 


Ue d 
----- 正确 目标 值 ===== 

[0, 1] 

测试 值 : 8.000000 70.000000 
仿真 计算 中 

iae Bl 

正确 目标 值 : [1,0] 

测试 值 : 6.500000 272.000000 
仿真 计算 中 

UJ 3e 

正确 目标 值 : [0,11 

按 回 车 键 退 出 


上 述 多 层 感知 器 的 完整 源 代码 见 本 书 资源 包 中 的 “多 层 感知 器 神经 网 络 源 代码 doc" X 
件 或 8-10.py 文件 。 
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前 面 用 例子 说 明了 Rosenblatt 感知 器 的 局 限 性 ， 现 在 在 多 层 感知 器 上 对 Rosenblatt 感知 
器 无 法 分 类 的 数据 进行 测试 。 将 “多 层 感知 器 神经 网 络 源 代码 .doc” 文 件 中 的 代码 中 的 样本 
数据 进行 修改 ， 并 加 上 绘制 散 点 图 的 代码 。 

ix 和 样本 初始 化 


train x = np.array([[1,6], [3,12], [3,9], [3, 211, [2, 16], [3,15]]) 
d =np.array ([[1,0], [1,0], [0,1], [0,1], [1,0], [0,1]]) 


for xn in xrange(0,len(x)): 
if simulate(x[xn],sigmoid func,delta sigfun)[0] > 0: 
pl.plot(train x[xn][0],train x[xn][1],"bo") 
else: 
pl.plot(train x[xn][0],train x[xn][1],"b*") 
pl.show() 


运行 代码 对 神经 网 络 进行 训练 ， 训 练 成 功 后 ， 误 差 为 0。 如 图 8-16 所 示 为 训练 效果 ， 实 
心 圆 图 与 星 号 分 别 表示 两 类 样本 点 ， 多 层 感知 器 
网 络 的 非 线性 分 类 成 功 完成 了 Rosenblatt 感知 器 
无 法 完成 的 任务 。 
现在 在 上 述 代码 基础 上 ， 加 上 若干 随机 数据 “20 
点 ,将 学 习 率 设 得 较 小 ， 进 一 步 观 察 多 层 感知 器 ”9 15 





30 





的 非 线性 分 类 能 力 。 代 码 如 下 : n 
#!/usr/bin/env python 5 
#-*- coding: utf-8 -*- 
«code:myhaspl8qq.com 0 
#8-11 .py 0 5 10 


import pylab as pl xl 
import numpy as np 

import random 图 8-16 多 层 感 知 器 网 络 的 非 线 性 分 类 
import copy 
isdebug-False 
ix 和 a 样本 初始 化 
train x = np.array([[1,6],[3,12], [3,9], [3,21], [2, 16], [3, 15] ]) 
d «np.array([[1,0],[1,0], [0,1], [0,1], [1,01, [0, 111) 


train() 

delta sigfun-ann delta atanh 
sigmoid func-ann atanh 

temp x-np.random.rand(20)*10 
temp y-np.random.rand(20)*20-«temp x 
myx-temp x 

myy-temp y 

pl.subplot (111) 
x_max=np.max (myx) +5 
x_min=np.min (myx) -5 

y max-np.max(myy)-45 
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y_min=np.min (myy) -5 
pl.xlabel (u"x1") 
pl.xlim(x min, x max) 
pl.ylabel(u"x2") 
pl.ylim(y min, y. max) 
i-0 
for mysamp in myx: 
test-get siminx([[mysamp,myy [i]]]) 
if simulate(test,sigmoid func,delta sigfun)[0] > 0: 
pl.plot (mysamp,myy[i]l,"ro") 
else: 
pl.plot (mysamp,myy[i],"g*") 
i--1 
for xn in xrange(0,len(x)): 
if simulate(x[xn],sigmoid func,delta sigfun)[0] » 0: 
pl.plot(train x[xn][0],train x[xn][11,"bo") 
else: 
pl.plot(train x[xn][0],train x[xn][1]l,"b*") 
pl.show() 


从 如 图 8-17 所 示 的 分 类 效果 中 ， 能 直观 感受 到 多 层 感知 器 的 非 线性 分 类 能 力 。 其 中 ， 
星 号 与 实心 圆圈 表示 的 数据 点 被 分 成 了 两 类 ， 它 们 之 间 的 界限 是 非 线性 表示 的 曲线 ， 而 不 是 
线性 表示 的 直线 。 

在 多 层 感知 器 学 习 中 ， 经 常 需要 用 到 一 个 概 
念 : 误差 曲线 。 误 差 曲线 体现 在 一 个 二 维 坐标 系 
中 , 克 轴 表示 训练 次 数 ，7 轴 表示 每 次 训练 的 误差 
率 。 理 想 的 误差 曲线 是 随 着 六 的 增加 ，Y 值 不 断 
平滑 减少 ， 这 与 误差 曲面 相似 ， 误 差 曲面 以 参数 
为 自 变量 ， 这 些 都 形象 地 体现 了 梯度 下 降 的 概念 。 
它们 都 说 明了 一 个 道理 ， 一 个 设计 良好 的 多 层 感 
知 器 ， 随 着 训练 次 数 的 增多 ， 模 型 会 越 来 越 精确 ， 
误差 曲面 会 朝 着 最 小 点 向 下 滑动 ， 而 且 误差 曲线 
也 在 下 降 。 

前 面 为 了 讲述 的 需要 ,“ 多 层 感 知 器 神经 网 络 EBIT PRIR 
源 代码 doc” 文件 所 示 代码 对 误差 率 的 计算 以 最 终 输出 结果 为 依据 计算 ， 现 在 在 神经 网 络 输 
出 层 的 后 面 再 增加 一 层 最 终 输出 层 ， 对 原 输出 层 的 结果 进行 再 次 加 工 后 输出 。 本 书 在 以 后 涉 
及 的 相关 代码 中 ， 如 未 特别 说 明 ， 最 终 输出 结果 是 指 新 增 的 最 终 输出 层 的 输出 结果 。 在 此 ， 
将 误差 率 的 计算 公式 定义 为 : 


saa [E (实际 值 -输出 值 ) ? 
sid | 样本 数目 

设置 好 网 络 的 相关 参数 ， 将 期 望 误差 率 设置 为 0.3， 然 后 加 入 绘制 误差 曲线 的 代码 。 在 
列 出 代码 之 前 ， 先 介绍 一 下 前 面 没有 具体 涉及 的 问题 :中 间 隐藏 层 、 学 习 率 及 动量 参数 。 
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一 般 认 为 ， 增 加 隐藏 层 数 可 以 降低 网 络 误差 ， 提 高 精度 ， 但 也 可 使 网 络 复杂 化 。 当 然 
也 有 学 者 提出 了 反对 意见 ， 但 从 实践 经 验 来 看 ， 隐 藏 层 的 数目 过 少 无 法 实现 对 复杂 数据 的 学 
习 ， 隐 藏 层 的 增多 增加 了 网 络 的 训练 时 间 和 出 现 “ 过 拟 合 ”的 概率 。 

设计 神经 网 络 至 少 应 考虑 3 层 网 络 ， 其 中 有 一 层 隐 藏 层 ， 在 这 里 将 隐藏 层 的 层 数 及 每 层 
节点 数 定义 为 如 下 形式 : 

隐藏 层 的 层 数 = 每 个 样本 的 元 素 个 数 X4-2 
每 个 隐藏 层 的 节点 数 = 训 练 样本 数 -1 

目前 仍 有 学 者 在 对 学 习 率 和 动量 参数 进行 研究 。 什 么 样 的 学 习 率 能 既 加 快 神经 网 络 的 训 
练 时 间 ， 同 时 又 能 提高 训练 精度 呢 ? 动量 参数 设置 为 多 少 ， 更 适合 当前 学 习 率 ， 让 误差 曲线 
在 下 降 过 程 中 尽 可 能 地 跳出 局 部 最 小 值 的 陷阱 呢 ? 

如 果 学 习 率 设 得 过 大 ， 可 能 造成 训练 过 早 停止 ， 错 过 了 误差 曲线 的 全 局 最 小 值 ; 而 设 得 
过 小 则 会 造成 训练 时 间 加 长 ， 同 时 容易 陷入 误差 曲线 的 局 部 最 小 值 。 动 量 参 数 也 存在 类 似 的 
问题 。 笔 者 认为 这 些 参数 需要 在 实践 应 用 中 进行 调试 和 测试 ， 通 过 对 训练 效果 反复 对 比 ， 才 
能 得 到 最 适合 的 参数 。 

根据 以 上 设计 思路 ， 用 Python 在 “多 层 感 知 器 神经 网 络 源 代 码 .doc” 文 件 代码 的 基础 
上 实现 。 代 码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qa.com 

#8-12.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug=False 

#x 和 a 样本 初始 化 
| 
d «[[1,01,[0,1], [1,0], [0,12], [1,0]; [0,11] 
warray txn-len(train x[0]) 

warray n-len(train x)-1 

8 基本 参数 初始 化 

oldmse-10**100 

fh-1 

maxtrycount-500 

mycount-0.0 

if maxtrycount»-20: 
r-zmaxtrycount/10 

else: 

r-maxtrycount/2 

#sigmoid 函数 

ann sigfun-None 

ann delta sigfun-None 

# 总 层 数 初始 化 ， 比 非 线 性 导数 多 一 层 线性 层 
alllevel count-warray txn*4 


# 非 线 性 层 数 初始 化 
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hidelevel count-alllevel count-1 
# 学 习 率 参数 

learn r0-0.02 

learn r0*-2.5 

learn r-learn r0 

# 动量 参数 

train a0-learn r0*1.2 
train a0*-0.0015 

train a-train a0 

# 误差 率 

expect_e=0.3 

x max-len(err) 

x min-1 

y max-max(err)-40.2 

y .min-0. 
plt.xlabel(u"traincount") 
plt.xlim(x min, x max) 
plt.ylabel(u"mse") 
plt.ylim(y min, y max) 

lp x1 = xrange(1,len(err)-41) 
lp.x2 = err 
plt.plot (lp x1l,lp: x2, "'g-') 
plt.show() 


运行 代码 ， 执 行 结果 如 下 : 


= 一 = 一 一 一 一 开始 第 137 次 训练 --------- & 4 # 4 4€ 4 误差 为 : 0.309623 
------- 开始 第 138 次 训练 --------- 4 # # 4 4 4 误差 为 ; 0.330235 
------- 开始 第 139 次 训练 --------- & & 4 4 4 4 误差 为 : 0.284128 
训练 成 功 ， 正 在 进行 检验 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

训练 成 功 ， 输 出 误差 为 : 0.000000 

样本 : 4-11 => 

仿真 计算 中 

D$. 你 说 

===== 正确 目标 值 ===== 

[1, 0] 

样本 : 7-340 => 

仿真 计算 中 

[4X Ael 

----- 正确 目标 值 ===== 

po, 3g 

样本 : 10-95 => 

仿真 计算 中 

| 
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样本 : 5~128 => 
[D 9. 4] 


[0; 1] 

测试 值 : 8.000000-70.000000 
仿真 计算 中 

Dos (8x1 

正确 目标 值 : [1,0] 

测试 值 : 6.500000-272.000000 
仿真 计算 中 

t Os is] 

正确 目标 值 : [0,1] 


从 上 述 代 码 执行 结果 中 不 难看 出 ， 网 络 在 139 次 训练 后 ， 达 到 了 训练 误差 的 期 望 值 0.3， 
对 测试 数据 和 样本 数据 的 验证 均 成 功 。 
再 来 看 看 如 图 8-18 所 示 的 误差 曲线 ， 12 
总 体 呈 现下 滑 趋 势 。 

图 8-18 中 的 曲线 并 不 平滑 ， 如 果 
将 学 习 率 设 得 更 小 ， 曲 线 将 平滑 很 多 ， 0.8 
训练 次 数 也 将 增多 。 现 在 修改 代码 ， 
将 学 习 率 减少 ， 重 新 绘制 误差 曲线 图 。 


#!/usr/bin/env python 0.4 
$-*- coding: utf-8 -*- 
dcode:myhaspl8qg.com 0.2 
#8-13.py 
import numpy as np 0.0 1 L n L 
import matplotlib.pyplot as plt 20 40 OUMES. 100 129 
import random 
import copy 图 8-18 误差 曲线 ( 附 彩 图 ) 
isdebug-False 
tx 和 a 样本 初始 化 
train x = [[4,11],[I7,340],[10,95],[3,29], [7,43], [5,128] ] 

z[[1,01, [0,1], [1,0], [0,1], [1,0] [0,11] 
warray txn-len(train x[0]) 
warray n-len(train x)-1 


# 基本 参数 初始 化 


mse 
e 
e 
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oldmse-10**100 

fh-1 

maxtrycount-2000 

mycount-0.0 

if maxtrycount»-20: 
r-maxtrycount/10 

else: 

r-cmaxtrycount/2 

Ksigmoid 函数 

ann  sigfun-None 

ann, delta sigfun-None 

# 总 层 数 初始 化 ， 比 非 线性 导数 多 一 层 线性 层 
alllevel count=warray_txn*4 

# 非 线性 层 数 初始 化 

hidelevel count-alllevel count-1 
# 学 习 率 参数 

learn, r0-20.005 

learn r0*-2.5 

learn r-learn r0 


eis 开始 第 354 次 训练 --------- & 
=-=- 开始 第 355 次 训练 --------- # 
------- 开始 第 35e 次 训练 --------- & 
seniai 开始 第 357 次 训练 --------- # 
------- 开始 第 358 次 训练 --------- s 
M 开始 第 359 次 训练 --------- * 
训练 成 功 ， 正 在 进行 检验 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

训练 成 功 ， 输 出 误差 为 : 0.000000 


误差 为 : 
误差 为 : 
误差 为 : 
误差 为 : 
误差 为 : 
误差 为 : 


.344559 
.347000 
.338863 
.342834 
.353655 
.280097 


3E de Gb dE db dk 
4E dk Hb db dB Gb 
dE dE db Hb dk Gb 
dE dE dE Hb dE Gb 
dE dE db db Hb Gb 
SS HSS © 


[1, 0] 


仿真 计算 中 
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[t Ud 
样本 : 5-128 => 
仿真 计算 中 


测试 值 : 8.000000-70.000000 
仿真 计算 中 

[ 1. 0.] 

正确 目标 值 : [1,0] 

测试 值 : 6.500000-272.000000 
仿真 计算 中 

EU. dej 

正确 目标 值 : [0,11] 


从 执行 结果 可 看 出 ， 如 果 将 学 习 率 设 得 更 小 ， 训 练 次 数 确实 增多 了 ， 由 100 多 次 变 成 了 
300 多 次 ， 相 比 上 次 的 训练 ， 每 次 训练 的 误差 率 降低 幅度 变 小 ， 如 图 8-19 所 示 为 误差 曲线 。 


相 比 图 8-18 的 误差 曲线 ， 图 8-19 所 示 
的 误差 曲线 下 降 趋势 更 加 明显 ,平滑 很 多 ， 
上 下 摆动 的 幅度 也 减 小 了 不 少 。 


8.1.4 Python 神经 网 络 库 


前 面 几 节 设计 和 完善 了 线性 和 非 线 性 神 
经 网 络 ， 并 通过 Python KM THANA, Z 
步 前 述 了 怎样 设计 一 个 神经 网 络 ， 如 何 改 进 
神经 网 络 ， 如 何 应 用 神经 网 络 完成 分 类 等 。 
后 面 的 章节 还 将 对 这 些 程序 代码 进行 改进 ， 
介绍 如 何 应 用 神经 网 络 进行 数据 拟 合 。 

“不 用 重复 造 轮子 "”， 实 践 中 除非 条 件 限 
制 ( 比 如 : 受 限 般 入 式 环境 等 应 用 ) 必须 编 





0.5 











= 上 一 上 =h. 
150 200 250 300 350 
traincount 


图 8-19 误差 曲线 


1 1 
50 100 


写 所 有 的 神经 网 络 代码 ， 否 则 可 以 直接 调用 神经 网 络 相关 的 库 。 
目前 Python 关于 神经 网 络 的 库 较 多 ， 这 里 选择 纯 Python 库 实现 的 神经 网 络 库 Neurolab, 


在 第 2 章 中 已 经 介绍 过 它 的 安装 与 配置 方法 ， 在 此 不 再 介绍 ， 


下 面 直接 讲述 如 何 应 用 它 。 首 
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先进 入 Python 的 控制 台 ， 以 前 几 节 的 数据 为 例 ， 熟 悉 一 下 Neurolab 的 基本 使 用 方法 。 


>>> import neurolab as nl 
>>> train x = [[4,11],I[7,340], [10,95],[3,29], [7,43] , [5,128] ] 
>>> input-np.array(train x) 
»»» d z[f1]1,[I01;[11, LO] a E11, [0]] 
>>> target-np.array (d) 
>>> target 
array([[1], 
[0], 
[1]; 
[0], 
[1], 
[011) 
>>> input 
array([[ 4, 11], 


L 7, 340], 
[ 10, 2395], 
L 3, 29]; 
E Za — 431, 
[ 5, 128]]) 
»»» net = nl.net.newff([[3, 10], [11, 40011, [5, 11) 


>>> err = net.train(input, target, show-15) 
Epoch: 15; Error: 0.326594518922; 

Epoch: 30; Error: 0.0242485565317; 

The goal of learning is reached 


训练 完毕 后 ， 再 用 数据 测试 该 网 络 。 代 码 如 下 : 


»»» net.sim([I[3, 1011) 
array([[ 0.99999326]]) 
>>> net.sim([[9, 801]) 
array([[ 0.89054486]]) 
»»» net.sim([[6.5,272]]) 
array([[ 0.05707987]1) 
>>> net.sim([[10,80]]) 
array([[ 0.9448553]]) 
>>> net.sim([[5,125]]) 
array([[ 0.12198103]]) 
>>> net.sim([[5,100]]) 
array([[ 0.18880761]]) 


上 述 代码 显示 ， 训 练 很 成 功 ， 测 试 数据 也 被 正确 分 类 。 

拥有 中 间 隐 藏 层 的 多 层 感知 器 在 输入 与 输出 之 间 建 立 了 映射 关系 ， 这 种 映射 关系 不 一 定 
是 某 种 数学 模型 明确 定义 的 。 如 果 随 机 生成 无 规律 的 输入 值 和 输出 值 ， 这 些 值 之 前 的 关系 完 
全 未 知 ， 那 么 是 不 能 建立 拥有 确定 数学 公式 的 映射 的 ， 但 可 通过 神经 网 络 来 建立 它们 之 间 的 
数学 模型 。 代 码 如 下 : 


>>> import numpy as np 
>>> import neurolab as nl 
>>> input = np.random.uniform(-0.5, 0.5, (10, 2)) 
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>>> output = np.random.uniform(-0.5, 0.5, (10, 1)) 

>>> err = net.train(input, output, show-15) 

»»» net = nl.net.newff([[-0.5, 0.5], [-0.5, 0.5]], [8, 1]) 
»»» err = net.train(input, output, show-15) 

Epoch: 15; Error: 0.0676764691815; 

Epoch: 30; Error: 0.0131047452439; 

The goal of learning is reached 

»»» err[len(err)-1] 

0.0097660775986454906 


上 述 代 码 中 的 err[len(err)-1] 表示 训练 停止 后 的 误差 率 。 可 以 看 到 ， 训 练 后 精度 很 高 ， 
误差 率 小 于 0.01。 下 面 来 编写 代码 绘制 误差 曲线 。 
>>> import matplotlib.pyplot as plt 


>>> plt.plot(err) 
[«matplotlib.lines.Line2D object at 0x04C173B0»] 


如 图 8-20 所 示 是 生成 的 误差 曲线 ， 能 明显 看 到 误差 曲线 很 平滑 。 但 此 处 的 误差 来 源 数 
据 是 训练 15 次 采集 一 次 ， 前 几 节 中 的 误差 曲线 是 每 训练 一 次 采集 一 次 。 因 此 ， 图 8-20 比 前 
几 节 的 误差 曲线 更 为 平滑 。 2s 
通过 多 层 感 知 器 神经 网 络 ， 在 这 组 没有 联系 的 随 
机 生成 的 输入 和 输出 之 间 “ 强 行 ” 建 立 了 一 种 映射 关 15 
系 。 在 测试 时 ， 通 过 未 在 样本 中 出 现 的 输入 数据 ， 能 得 
到 符合 这 种 映射 关系 的 输出 。 这 种 映射 能 力 非 常 重要 ， 2 
是 后 面 几 章 提 到 的 数据 拟 合 、 模 式 识别 等 机 器 学 习 任 务 
的 基础 。 





T T —T T— TT 


0.0 
0 


82 ”统计 算法 图 8-20 误差 曲线 
统计 分 析 算 法 在 机 器 学 习 中 占有 重要 地 位 ， 在 此 ， 仅 介绍 几 种 常用 算法 。 


8.2.1 平均 值 


平均 值 是 统计 学 中 最 常用 的 统计 量 ， 用 来 表明 资料 中 各 观测 值 集中 较 多 的 中 心 位 置 ， 用 
于 反映 现象 总 体 的 一 般 水 平 ， 或 分 布 的 集中 趋势 。 有 限 总 体 的 平均 值 定 义 为 : 


u-Y x, /N 
式 中 , 人 表示 总 体 平均 值 ，N 表示 总 体 所 包含 的 个 体 数 。 
平均 值 的 意义 在 于 : 不 仅 可 用 它 来 反映 一 组 数据 的 一 般 情况 ， 还 可 以 进行 不 同 数据 组 之 间 
的 比较 ， 以 看 出 组 与 组 之 间 的 差别 。 下 面 随机 生成 两 组 随机 数 ， 对 它们 进行 分 析 。 代 码 如 下 : 


>>> y = np.random.uniform(-0.5, 0. 
>>> X = np.random.uniform(-0.5, O0. 
>>> X 


(10, 1)) 
(10, 1)) 


Un ut 
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array([[-0.46954884], 
0.39078561], 
0.055317897], 
0.06414516], 
-0.00511995];, 
0.41105398], 
0.23416933], 
0.1369419 ], 
0.45076555], 
0.1808625 ]]) 
55» y 
array([[ 0.38100971], 
0.12510564], 
0.0540655 ], 
0.25050503], 
0.13180995], 
0.32953768], 
0.35940215], 
0.00294618], 
0.23359633], 
[-0.49808591]]) 
>>> np.mean(y) 
-0.032300713545130311 
>>> np.mean(x) 
-0.16524661414915703 


观察 上 述 代 码 的 执行 结果 可 以 看 到 ，y 的 平均 值 为 -0.032300713545130311, x 的 平均 值 
为 -0.16524661414915703, y 的 平均 值 更 趋向 于 0， 因此， 我 们 预言 : y PRSE LEE x f 
A, 更 趋向 于 0。 继 续 在 Python 控制 台中 绘制 它们 在 坐标 系 中 的 分 布 ， 以 验证 这 个 预言 。 代 
人 码 如 下 : 


>>> z-np.zeros(10) 


>>> Z 
array ti Orp Qu Dok Boar Dn Tey ds Wer Qs OTi 
>>> xx=np.array (zip(z,x));yy-np.array (zip(z,y)) 
>>> XX 
， -0.46954884], 


array([ 
d : 70.39078561], 
$ 0.05531789], 
， -0.06414516], 
; -0.00511995], 
-0.41105398], 
, -0.23416933], 
: 0.1369419 ], 
i -0.45076555]., 

L 0. : 0.1808625 ]]1) 
»»»import matplotlib.pyplot as plt 
>>> plt.xlim(-0.5, 0.5) 


[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
i 


SS BS SH DH SO 
a^ 6 de o m —0w*— 7 (M 


(-0.5, 0.5) 
»»» plt.ylim(-0.01, 0.01) 
(-0.01, 0.01) 
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>>> plot(yyI:,0]1,Yy[s,1]1,"'0r') 
[«matplotlib.lines.Line2D object at Ox04EB44D0»] 
s» plecixx[:0];xx[$;ll,'*b') 
[«matplotlib.lines.Line2D object at 0x04CE2810»] 


>>> 


x HE SX. 用 实心 圆 疾 表示 ， 绘 制图 形 如 图 8-21 所 示 。 从 图 8-21 所 示 的 效果 图 可 
以 看 出 ， 星 号 表示 的 数据 比 实心 圆圈 表示 的 数据 整体 更 偏 堪 ， 更 偏向 丈 轴 的 负 方 向 ， 这 个 趋 


势 证 实 了 我 们 刚才 的 预言 。 








8.2.2 方差 与 标准 差 0.04. | 
0.02. | 

1. 标准 差 
标准 差 是 一 组 数据 平均 值 分 散 程度 的 一 种 DU . = - 
度量 方式 ， 其 计算 公式 为 : -0.02| | 
1 ; —0.04L | 

E —0.06 











Hp, u 为 平均 值 。 

较 大 的 标准 差 ， 代 表 大 部 分 数值 和 其 平均 
值 之 间 差 异 较 大 ; 较 小 的 标准 差 ， 代 表 这 些 数值 较 接 近 平 均值 。 

2. 方差 

标准 差 的 平方 就 是 方差 ， 其 计算 公式 为 : 


N 
c? A 2.0 一 [人 
N 


图 8-21 数据 点 分 布 


HoP, u 为 平均 值 。 
方差 与 标准 差 的 统计 意义 差不多 ， 都 是 反映 数据 平均 值 分 散 程度 。 


3. Python 实现 


1 1 L L $- L L L 
0.5 —0.4 一 0.3 -0.2 —0.1 0.0 01 02 03 04 


下 面 用 Python 来 实现 标准 差 和 方差 的 计算 。 在 Python 控制 台 操 作 ， 随 机 生成 一 组 x 和 


yE, y 是 均匀 分 布 ,x 是 高 斯 分 布 。 代 码 如 下 : 


>>> y = np.random.rand(100) 
>>> X = np.random.normal(0.5, 0.00001, 100) 
»»»import matplotlib.pyplot as plt 


观察 x 的 分 布 趋势 ， 如 下 所 示 : 


>>> z=np.zeros (100) 

>>> xx-np.array (zip(x,z)) 

Soy plot(xx[:,0],-x[:s,1],**5') 
[«matplotlib.lines.Line2D object at 0x04E06BF0>] 


x 的 分 布 如 图 8-22 Bros, "ete itk X fl EER, ERRE PE 0.5 附近 (图 8-22 
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的 基 值 是 4.9997e-1 )， 少 量 点 散布 在 两 边 ， 这 是 预料 之 中 的 。 

x 是 高 斯 分 布 ， 随 机 生成 x 时 ， 指 定 了 参数 为 : 平均 值 0.5， 最 大 标准 差 为 0.000 01. P 
斯 分 布 就 是 正 态 分 布 ， 具 有 集中 性 的 特点 ， 即 : 正 态 曲线 的 高 峰 位 于 正中 央 ， 即 平均 值 所 在 
的 位 置 ， 如 果 是 一 维 空 间 ， 则 集中 在 藉 轴 中 平均 值 附近 。 

观察 了 的 分 布 趋势 ， 如 下 所 示 : 

>>> z-np.zeros(100) 

>>> yy-np.array (ziply,z)) 


SS plot(yy[:,0].,yyY[:,11,"*b") 
[«matplotlib.lines.Line2D object at 0x04E06BF0>] 


从 分 布 图 8-23 来 看 , y 均 匀 分 布 在 X 轴 上 ， 没 出 现 大 量 数据 点 聚集 的 情况 。 























0.06 T T T T T 
0.04 sj 
0.06 i i : ; 
0.02 | 
oot J 
0.00 * At * 4 0.02 | » 
—0.02 *1 0.00 tcc: Sci edic dicli e e Be e Mice Me Sec dli Soleil e M a 
—0.02 - RI 
—0.04 s 
—0.04 4 
—0.06 1 1 zd 1 1 
0.00000 0.00001 0.00002 0.00003 0.00004 0.00005 0.00006 —0.06 à i i i 
+4.9997e-1 ~ 0.0 0.2 0.4 0.6 0.8 1.0 
图 8-22 ”数据 点 分 布 图 8-23 ”数据 点 分 布 ( 附 彩 图 ) 


现在 分 别 求 出 x 和 ?了 的 平均 值 、 方 差 与 标准 差 。 


>>> np.mean(x)s$ 平均 值 
0.50000063672402462 
>>> mpP-var(X)# 方 差 
9.791184624177845e-11 
>>> np.std(x)$ 标准 差 
9.8950414977289737e-06 
>>> np .mean (y)# 平 均值 
0.52212510115195176 
>>> np.std(y)$t 标准 差 
0.28755684683792165 
>>> np-Var(Yy)# 方 差 
0.082688940163367933 


的 平均 值 与 x 接近 ,但 其 方差 和 标准 差 不 一 样 ，x 的 方差 和 标准 差 都 比 小 很 多 ， 比 x 
小 很 多 ,这 说 明 x 相对 于 ?来 说 ， 有 更 多 的 数值 集中 在 平均 值 0.5 附近 ， 这 就 是 方差 和 标准 
差 的 统计 意义 。 
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8.2.3” 贝 叶 斯 算法 


1. 贝 叶 斯 定理 

贝 叶 斯 定理 是 关于 随机 事件 4 和 B 条 件 概 率 的 一 则 定理 ， 下 式 定 义 了 在 事件 8 发 生 的 
情况 下 事件 4 发 生 的 条 件 概 率 : 
P(B| A)P(A) 

P(B) 

假设 {4;} 是 事件 集合 里 的 部 分 集合 ， 其 中 ，41, Aa, 4; 是 某 个 过 程 中 若干 可 能 的 前 提 ， 
fi] P(A;) 是 对 各 前 提 条 件 出 现 可 能 性 的 事先 估计 ， 称 之 为 先 验 概率 。 如 果 在 这 个 过 程 得 到 了 
结果 B， 贝 叶 斯 公式 定义 了 PUB)， 它 是 对 以 有 为 前 提 下 A 出 现 概 率 的 估计 ， 则 称 PAB) 
为 后 验 概 率 。 

对 于 任意 的 4， 贝 叶 斯 定理 用 下 式 来 表示 : 

P(B| A)P(A) 
PI A;)P(A;) 


P(A|B)- 


P(A; |B) = 


下 面 是 一 个 贝 叶 斯 算法 的 经 典 例子 。 

已 知 某 种 疾病 的 发 病 率 是 0.001， 即 1000 人 中 会 有 1 个 人 得 病 ， 现 有 一 种 试剂 可 以 检验 
患者 是 否 得 病 ， 它 的 准确 率 是 0.99， 即 在 患者 确实 得 病 的 情况 下 ， 它 有 99% 的 可 能 呈现 阳 
性 。 它 的 误 报 率 是 5%， 即 在 患者 没有 得 病 的 情况 下 ， 它 有 5% 的 可 能 呈现 阳性 。 现 有 一 个 病 
人 的 检验 结果 为 阳性 ， 请 问 他 确实 得 病 的 可 能 性 有 多 大 ? 

假定 4 事件 表示 得 病 , 那么 P(4) 为 0.001， 这 就 是 “ 先 验 概率 ”"， 即 没有 做 试验 之 前 预 
计 的 发 病 率 ; 假定 8 事件 表示 阳性 ， 那 么 要 计算 的 就 是 PadlB)， 即 “后 验 概率 "， 表 示 做 了 
试验 以 后 对 发 病 率 的 估计 。 计 算 过 程 如 下 : 


P(A|B) puje EA rs 
P(B| A)P(A)* P(B| A)P(A) 
P(A/B)= pihe z 0.019 
0.99x0.0014-0.05x0.999 


通过 计算 ， 得 知 P(4|B) 约 等 于 0.019， 即 使 检验 呈现 阳性 ， 病 人 得 病 的 概率 也 只 是 不 到 
2%， 也 就 是 说 ， 呈 现 “ 假 阳 性 ”， 阳 性 结果 完全 不 足以 说 明 病 人 得 病 。 

贝 叶 斯 算法 在 机 器 学 习 中 主要 用 于 分 类 ， 其 基本 原理 是 : CAREX, 首先 计算 
P(X|C), 得 出 C; 类别 包含 样本 邢 的 先 验 概率 ; 然后 根据 贝 叶 斯 定理 求 后 验 概率 P(C|X), fH 
A XET Ci; 类 别 的 后 验 概率 ; 最 后 根据 最 大 后 验 概率 判断 所 属 类 别 。 

2. 朴素 贝 叶 斯 

贝 叶 斯 算法 的 基础 是 概率 推理 ， 是 在 各 种 条 件 的 存在 不 确定 、 仅 知 其 出 现 概率 的 情况 
下 ， 完 成 推理 和 决策 任务 。 而 朴素 贝 叶 斯 算法 是 基于 独立 假设 的 ， 即 假设 样本 每 个 特征 与 其 
他 特征 都 不 相关 。 

尽管 实际 上 独立 假设 常常 是 不 准确 的 ， 但 朴素 贝 叶 斯 分 类 器 的 若干 特性 让 其 在 实践 中 能 
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够 取得 令 人 惊奇 的 效果 ， 各 类 条 件 特 征 之 间 的 解 耦 意味 着 每 个 特征 的 分 布 都 可 以 独立 地 被 当 
作 一 维 分 布 来 估计 ， 减 轻 了 由 于 维 数 灾 带 来 的 阻碍 ， 避 免 了 样本 规模 呈 指 数 增长 。 在 本 书 的 
第 10 章 中 有 关于 朴素 贝 叶 斯 算法 的 应 用 实例 。 

朴素 贝 叶 斯 算法 通常 在 自动 分 类 中 使 用 ， 算 法 的 主要 过 程 为 : 首先 ， 计 算 待 分 类 样本 特 
征 的 后 验 概率 ， 然 后 使 用 最 大 似 然 比 贝 叶 斯 分 类 法 或 最 小 风险 贝 叶 斯 分 类 法 完成 分 类 。 

当 待 分 类 样本 拥有 若干 特征 变量 FF Fa 时 ， 该 待 分 类 样本 属于 类 C 的 后 验 概 率 为 : 


PC Ls.) z XOT [0 1) 


其 中 ,证据 因子 Z 是 一 个 仅 依赖 Fi Fn 的 缩放 因子 ， 当 特征 变量 的 值 已 知 时 是 一 个 常数 。 

在 朴素 贝 叶 斯 算法 中 ， 后 验 概率 仅 依赖 于 两 个 因素 : 类 先 验 概率 pC) 和 基于 独立 假设 的 
先 验 概率 p(tilC)s 

上 面 的 推导 结果 解决 了 待 分 类 样本 后 验 概率 的 计算 问题 ， 余 下 的 问题 是 : 既然 得 到 了 属 
于 每 个 类 别 的 后 验 概 率 ， 如 何 知 道 待 分 类 样本 究竟 属于 哪个 类 别 呢 ? 有 两 个 方法 : 使 用 最 大 
似 然 比 贝 叶 斯 分 类 法 和 最 小 风险 贝 叶 斯 分 类 法 。 

目前 普遍 使 用 的 是 最 大 似 然 比 贝 叶 斯 分 类 方法 ， 即 : 选 出 最 有 可 能 的 那个 ， 将 待 分 类 样 
本 划 归 到 后 验 概率 最 大 的 那 一 类 中 ， 也 称 为 最 大 后 验 概率 (MAP) 决策 准则 。 当 采取 最 大 后 
验 概率 决策 时 ， 相 应 的 分 类 器 公式 定义 如 下 : 


classify(/, =, f,) = argmax pC =o) T PCF, =f1C=0) 
c i=l 


为 了 便于 理解 ， 去 除 这 些 繁 杂 的 数学 符号 ， 将 最 终 的 分 类 器 定义 为 : 
样本 所 属 类 别 =arg max(P( 类 型 )x 样本 每 个 单独 属性 先 验 概率 的 累 乘 ) 

其 中 ，argmax 表示 选择 最 大 概率 的 类 别 为 最 终 类 别 ，P (类 别 ) 为 类 别 先 验 概 率 ， 是 指 
该 类 别 本 身 的 可 能 性 有 多 少 。 

朴素 贝 叶 斯 虽然 是 基于 独立 假设 的 ， 但 实践 证 明 这 种 方法 确实 很 有 效 。 创 建 了 Viaweb 
(1998 年 ，Viaweb 成 为 最 流行 的 电子 商务 软件 ， 被 雅虎 收购 ， 改 称 雅 虎 商 店 ) 的 美国 著名 程 
序 员 Paul Graham 提出 使 用 朴素 贝 叶 斯 识别 垃圾 邮件 的 方法 ， 它 通过 使 用 字 词 等 标记 与 垃圾 
邮件 、 非 垃圾 邮件 的 关联 ， 计 算 一 封 邮件 为 垃圾 邮件 的 可 能 性 ， 以 实现 对 垃圾 邮件 的 判别 。 
有 兴趣 的 读者 可 以 查阅 下 面 网 址 : 

http://www.paulgraham.com/spam.html 

一 个 有 趣 的 例子 如 下 : 假设 有 一 台 智 能 机 器 ， 负 责 将 一 堆 未 知 水 果 分 为 3 类 : 苹果 、 桂 
圆 、 香 蕉 。 已 知 ， 这 一 堆 水 果 中 ， 苹 果 的 数量 约 占 60%， 桂 圆 的 数量 约 占 35%， 香 蕉 的 数量 
约 占 5%。 

现在 需要 一 位 工程 师 为 这 人 台 机 器 设计 一 个 机 器 学 习 算 法 ， 这 位 工程 师 选 择 了 朴素 贝 叶 斯 
分 类 算法 ， 将 算法 过 程 定义 为 如 下 形式 : 

首先 ， 计算 P (类 别 )。 

P( 苹 果 )=0.6,P( 桂圆 )=0.35,P( E% )=0.05 
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然后 ， 分 别 准 备 几 个 芋 果 、 桂 圆 、 香 蕉 的 样本 ， 分 析 甚 重量、 颜色、 形状 ， 得 出 它们 的 
先 验 概率 。 接 着 ， 重 头 戏 开始 了 ， 识 别 未 知 水 果 。 机 器 面前 
摆 了 一 个 这 样 的 水 果 (用 人 类 的 “智能 ”， 识 别 出 这 是 一 个 香 
药 ， 但 机 器 识 别 出 来 不 容易 ， 目 前 人 工 智能 水 平 远 没 达到 期 
望 的 水 平 )， 如 图 8-24 所 示 。 

机 器 要 做 的 识别 过 程 是 : 

1) 提取 这 个 未 知 样本 的 特征 : 重量、 颜色、 形状。 重量 
测量 使 用 称 重 仪器 ， 颜 色 靠 色 敏 元 件 ， 形 状 使 用 图 像 识 别 算法 。 

2) 从 存储 器 中 取出 事先 计算 好 的 重量 、 颜 色 、 形 状 的 先 
验 概 率 ， 设 这 个 未 知 水 果 的 重量 、 颜 色 、 形 状 特征 值 为 a:/、a,，、a;， 它 们 各 自 的 先 验 概率 为 : 

Pal| 苹果 ) =0.6,P (a| 苹果 )=0.4,P(as| 苹果 )=0.001 
P(ai| 桂圆 ) =0.001,P(az| 桂圆 )=0.9,P(as| 桂圆 )=0.001 
P(al| FÆ ) =0.6,P(as| & & )-0.9,P(as| A )-0.95 
其 中 ， QI 一 $E, a 颜色 ， a= 形状 。 





图 8-24 FÆ 

















3) 计算 后 验 概率 。 
设 这 个 未 知 水 果 为 x， 计算 x 属于 每 个 类 别 的 概率 。 
PCER IX)=P( 苹果 [ai,2,a5) 
=P( 苹果 )X(P(al| 荚果)XP(as| ER) XP(as| 苹果 ) 
—0.6 X (0.65 0.4 0.001) 
—0.6 X 0.000 24 
—0.000 144 
PCI [x)-P( 桂圆 |ai,a2z,G3) 
=P( 4E E] ) X (P(ai| 桂圆 )x P(a 桂圆 ) X P(as| 桂圆 ) 
—0.35 x (0.001 X 0.9 x 0.001) 
—0.000 000 315 
P( & & |x)-P( E% laaa) 
=P( 香蕉 )X(P(ai| EA )X P(az| & €) XP(a| & €) 
—0.05 x (0.6 X 0.9 X 0.95) 
—0.025 65 
4) 寻找 最 大 后 验 概 率 得 到 所 属 类 别 ， 假 设 所 属 类 别 为 C。 
PCCo=argmax(P( 苹果 x), PCH x), PCS x) 
—argmax(0.000 144,0.000 000 315,0.025 65) 
3 个 概率 中 ，0.025 65 是 最 大 的 概率 ， 因 此 CER 
5) 将 这 个 水 果 分 到 香蕉 推 中 。 
在 本 书 的 12.3 节 将 进一步 讲解 贝 叶 斯 算法 。 
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8.3 欧 氏 距离 


1. 数学 原理 

以 表示 实数 域 。 对 任意 一 个 正 整数 n， 实 数 的 nn 元 组 的 全 体 构成 了 R 上 的 一 个 n 维 向 量 空 
E, 用 素来 表示 ， 也 称 之 为 实数 坐标 空间 。 尺 中 的 元 素 写作 X= X, X, Xa), XLI] ox MEAE SIC 

欧 氏 范 数 定义 R" 上 的 距离 函数 (或 称 度量 ): 


d(x, y Hl x-y l= | x -y 


这 个 距离 函数 称 为 欧 几 里 得 度量 ,也 称 欧 氏 距 离 。 欧 氏 距离 通常 用 于 衡量 两 个 点 之 间 的 
距离 ， 这 两 个 点 可 以 是 定义 在 二 维 空间 的 ， 也 可 以 是 定义 在 三 维 空间 或 者 n 维 空间 的 。 


2. 计算 实例 
假设 在 二 维 空间 中 ,已 定义 两 个 点 : (3,8) 和 (2,5 )， 其 欧 氏 距离 如 下 : 


d- N(3-2y-«(8-5) =3.1623 


经 过 计算 ， 该 距离 为 3.1623， 两 点 在 空间 的 表示 如 图 8-25 所 示 。 该 距离 为 直线 的 长 度 。 

















图 8-25 ”二 维 空间 中 两 点 的 距离 


假设 有 两 点 : (2,5,7) 和 (3,8,2 )， 它 们 在 三 维 空间 的 欧 氏 距离 定义 为 : 


d= N(B-2)+(5-8)}+(7-2} =5.9161 


经 过 计算 ， 该 距离 为 5.9161， 如 图 8-26 所 示 ， 该 距离 为 直线 的 长 度 。 









; ipi 12 
y 5553 rT 3499 
图 8-26 三 维 空间 中 两 点 的 距离 
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n 维 欧 氏 空间 是 一 个 点 集 ， 它 的 每 个 点 了 可 以 表示 为 (x[1], x[2], 7, x], P x[i] 
(二 1,2,…,n) 是 实数 ， 称 为 的 第 i 个 坐标 ， 两 个 点 4=(a[1]，a[2]，*…，a[n]) 和 B=(b[1]， 
b[2]，…，b[n]) 之 间 的 距离 d4 ，B) 计算 方式 如 下 : 


d(A, B) - J} (ali]- b[i])* 


8.4 ”余弦 相似 度 


1. 数学 原理 

1) 向 量 。 空 间 中 有 两 个 点 4 和 B，4->B 就 是 一 个 向 量 ， 可 以 读 成 从 4 到 8。 它 既 有 大 
小 又 有 方向 ， 设 原点 是 O， 给 定 空 间 中 任意 一 点 4，O4 是 从 0 到 4 的 向 量 。 如 图 8-27 所 示 
就 是 一 个 定义 在 三 维 空间 上 的 向 量 OA. 


2) AR (内 积 )。 对 任意 两 个 向 量 x、y， 点 积 Cx y? 
(x * y) & 


xy» xy = XP tXytectxXy, 
R" 中 的 两 个 向 量 通 过 点 积 的 方式 映射 成 一 个 实数 值 ， 
R" 及 其 点 积 称 为 R" 上 的 欧 几 里 得 结构 ， 可 以 将 良 称 为 n 
维 欧 几 里 得 空间 ， 点 积 〈《, 》 称 为 欧 氏 点 积 。 
3) HEKE. mi x B BE X: 


一 zz s A ? 
I xe «xx» (20? 图 8-27 向 量 


上 式 又 称 为 R" 上 的 欧 氏 范 数 。 
4) 余弦 相似 性 。 在 欧 氏 内 积 和 欧 氏 范 数 基础 上 定义 向 量 4 和 中 之 间 的 0 余弦 相似 性 如 下 : 


def 2 4xB, 


similarity= cos(0) — PT = uo r 
2 AY x JZE) 
其 中 09 为 x 和 ?了 所 夹 的 内 角 。 
2. 算法 原理 


余弦 相似 性 通过 测量 两 个 向 量 点 积 空间 夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 。0 BE f 
的 余弦 值 是 1， 而 其 他 任何 角度 的 余弦 值 都 不 大 于 1， 并 且 其 最 小 值 是 -1。 

两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 两 个 向 量 有 相同 的 
指向 时 ,余弦 相似 度 的 值 为 1 ; 两 个 向 量 夹 角 为 90” 时 ,余弦 相似 度 的 值 为 0 ; 两 个 向 量 指 
向 完全 相反 的 方向 时 ,余弦 相似 度 的 值 为 -1。 

余弦 相似 度 通常 用 于 两 个 向 量 的 夹 角 在 909 之 内 的 情况 ， 余 弦 相 似 度 的 值 为 0 ~ 1。 余 
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弦 相 似 度 可 用 在 任何 维度 的 向 量 比较 中 ， 因 此 在 高 维 空 间 中 的 应 用 非常 广泛 。 

在 实际 应 用 中 ， 通 常会 先 提取 两 个 数据 的 特征 ， 每 个 
数据 各 形成 一 个 n 维 向 量 ， 然 后 通过 计算 这 两 个 向 量 的 余 
弦 相 似 度 来 判定 这 两 个 向 量 是 否 是 同一 类 型 。 例 如 : 文本 
分 类 、 图 像 识别 等 都 能 使 用 余弦 相似 度 算 法 。 

设 定 一 个 常数 C (0 志 C < 1)，04 与 08 之 间 形 成 了 
夹 角 a， 余弦 相似 度 如 果 大 于 C， 就 认为 OA 与 OB 属于 同 
一 类 ， 如 图 8-28 所 示 。 





8.5 SVM 图 8-28 ”余弦 相似 度 


1992 ~ 1995 年 ，Vapnik 等 在 SLT 的 基础 上 发 展 了 SVM 算法 。 它 在 解决 小 样本 、 非 线 
性 及 高 维 模式 识别 问题 中 都 表现 出 了 许多 特有 的 优势 ， 目 前 已 经 成 为 与 神经 网 络 地 位 齐名 的 
算法 ,在 样本 量 较 小 的 情况 下 ， 其 实际 运用 效果 甚至 超过 了 神经 网 络 。 


8.5.1 数学 原理 


SVM 中 文 名 为 支持 向 量 机 ， 英 文 全 称 为 Support Vector Machine， 是 一 种 监督 式 学 习 的 方 
法 。 它 拥有 坚实 的 数学 基础 ， 数 学 原理 较 复 杂 ， 涉 及 的 数学 知识 很 多 ， 如 果 将 其 相关 理论 以 
及 推导 完全 展开 来 ， 能 写成 一 本 超过 300 页 的 书 。 因 此 ， 这 里 仅 简单 介绍 SVM 的 基本 原理 。 


1. 算法 策略 

SVM 首先 将 向 量 映射 到 一 个 更 高 维 的 空间 里 ， 在 其 中 建立 最 大 间隔 超 平 面 ， 将 数据 分 
Jf; 然后 ， 在 超 平面 两 边 青 设立 两 个 互相 平行 的 超 平面 ; 最 后 分 隔 超 平面 ， 使 两 个 平行 超 平 
面 的 距离 最 大 化 。SVM 假定 平行 超 平面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 小 。 


2. 超 平 面 
超 平面 的 数学 形式 可 以 写作 : 
w * x-b-0 
其 中 x REDE IE ERAS. wee TAFE 
由 图 8-29 可 知 ， 平 行 超 平面 可 表示 为 以 下 两 个 方程 : 
w * x—b=1 
w * x-b--1 
其 中 ，w 为 超 平面 的 法 向 量 ， 是 一 个 变量 。 
如 果 数 据 是 线性 可 分 的 ， 可 找到 两 个 超 平面 ， 在 它们 之 
间 没 有 任何 样本 点 ， 并 且 这 两 个 超 平面 之 间 的 距离 也 最 大 。 
这 两 个 超 平 面 之 间 的 距离 是 2/w|， 因 此 需要 最 小 化 
wl， 因 为 这 两 个 超 平面 之 间 没 有 任何 样本 点 ， 所 以 x; 还 需 图 如 29 fH 
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要 满足 以 下 两 个 条 件 中 的 一 个 : 
w*x-bzl 
w * xi-b < -1 
把 上 面 两 个 式 子 合 写 ， 将 变 成 : 
C(w*x-b)z-l 1<i<n 
3. 二 次 规划 最 优化 
二 次 规划 问题 可 以 用 以 下 形式 来 描述 。 
1) PRA foo) 定义 为 : 
DO=(L2)xTOxter 
其 中 , x! 是 x 的 转 置 。 
2) 函数 受到 一 个 或 更 多 如 下 形式 的 限制 条 件 : 
Ax & b 
Ex=d 
如 果 @ 是 半 正 定 矩 阵 ， 那 么 Ko 是 一 个 凸 函 数 。 如 果 有 至 少 一 个 向 量 x 满 足 约束 而 且 
foo) 在 可 行 域 有 下 界 ， 二 次 规划 问题 就 有 一 个 全 局 最 小 值 x。 如果 2 是 正定 矩阵 ,那么 全 局 
最 小 值 就 是 唯一 的 。 如 果 CO=0， 二 次 规划 问题 就 变 成 线性 规划 问题 。 
再 来 看 SVM 算法 ， 该 算法 提出 了 两 个 要 求 : 第 一 ， 超 平面 之 间 没 有 任何 样本 点 ; 第 二 ， 
超 平面 之 间 的 距离 最 大 。 这 样 就 形成 了 二 次 规划 最 优化 问题 。 


2 
minimize: W(a)= D +C> é 
subject to y(w'x;-b) 三 1-&,Vi 


ei > 0,Vi 
这 也 是 一 个 二 次 凸 规划 问题 。 


根据 优化 理论 ， 一 个 点 x 成 为 全 局 最 小 值 的 必要 条 件 是 满足 Karush-Kuhn-Tucker ( KKT) 
条 件 ， 当 foo) 是 是 函数 时 ，KKT 条 件 也 是 充分 条 件 。 因 此 通过 拉 格 朗 日 变换 以 及 KKT 定理 
推导 ， 二 次 凸 规划 最 优化 问题 转变 为 : 
maximize : W (a) = by = DI 


subject to 0& a, <C, Ya, =0 


然后 引入 核 函数 ， 最 后 的 目标 函数 为 : 





. " n 1 n n 
maximize : W (a) — Dea 732,2 0X. KG) 
i=1 i=l j=l 


subject to : Ya, —-0,0za, C, Vi 
改写 为 矩阵 相 乘 的 格式 ， 得 到 : 
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1 
minimize: f (a)= 7° Q« —e'a 
subject to y'a-0 — 0 < a, € Gil,…,l 


最 终 的 目标 变 成 了 : 通过 训练 样本 寻找 a, 使 得 下 式 最 小 : 


l + T 
—a «ga—-ea 
> Q 


核 函数 可 以 是 线性 的 或 非 线性 的 ， 线 性 核 函 数 仅 能 完成 线性 分 类 ， 而 非 线性 核 函 数 既 可 
以 完成 线性 分 类 ， 也 可 以 完成 非 线性 分 类 。 


8.5.2 SMO 算法 


SMO (最 小 贯 序列 方法 ) 是 改进 的 SVM 训练 算法 ， 同 其 他 SVM 训练 算法 一 样 ，SMO 会 
将 一 个 大 的 QP 问题 分 解 为 一 系列 小 的 QP 问题 。 与 其 他 算法 不 一 样 的 是 ，SMO 处 理 的 是 规模 
最 小 的 QP 问题 ， 因 此 能 够 快速 解决 并 获得 解析 解 ， 而 且 能 够 有 效 地 改善 空间 和 时 间 复 杂 度 。 

SMO 基本 原理 是 : 每 次 仅 选择 两 个 元 素 共同 优化 ， 在 其 他 参数 固定 的 前 提 下 ， 找 到 这 
两 个 参数 的 最 优 值 ， 并 更 新 相应 的 a 向量， 而 这 两 个 点 乘 子 的 优化 可 以 获得 解析 解 。 


8.5.3 ”算法 应 用 


SVM 算法 的 数学 原理 较 难 懂 ， 推 导 过 程 复杂 ， 掌 握 SVM 算法 的 关键 在 于 动手 实践 。 通 
过 编写 代码 ， 运 用 SVM 算法 解决 机 器 学 习 问 题 才 能 真正 理解 它 。mlpy 库 提供 了 SVM 算法 
的 相关 函数 ， 本 节 将 以 mpy 库 为 例 进行 阐述 ， 请 按 第 2 章 的 指导 安装 mlpy 库 。 


1. 核 函 数 

mlpy 的 SVM SEU Fee EU FT PRÉC 

ZX PEIZ RAO E KRANER Fe, RUM OI linears 
3EZE FEIZ PRABCUIT F : 

1) ZR, PRU JJ poly. 

2) RERA, RRA rbfo 

3) sigmoid PEZ, ŠZ J sigmoido 


2. 线性 分 类 
下 面 使 用 线性 核 作 为 SVM 的 核 郴 数 ， 对 下 面 的 数据 进行 分 类 。 


x = [[1,8]1, [3,201], [1,15], [3,35], [5,35], [4,40], [7 80], [6, 49] ] 
Y = [1,1,0,0,1,0,0,1] 


创建 SVM 类 的 实例 ， 并 使 用 learn 方法 训练 SVM。 


x-np.array (x) 
y-np.array (y) 

svm = mlpy.LibSvm() 
svm.learn(x, y) 
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使 用 pred 方法 对 未 知 数据 进行 分 类 。 代 码 如 下 : 
ty=svm.pred (tlp_x[ii]) 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
*temail:myhaspl8qg.com 

&author: Xf 

4$8-14.py 

import numpy as np 

import matplotlib.pyplot as plt 
import mlpy 

print 'loading sna! 


ix = [[1,8]1,[3,20],[1;,15]4,[3,35], [5,35], [4,40], [7, 80] , [6,49]] 
[15149,0710 70,11 
showpoint-['ro','r*'] 
tshowpoint-['bo','b*'] 
x-np.array (x) 
y-np.array(y) 
svm - mlpy.LibSvm() 
svm.learn(x, y) 
1p si e £[I:,0] 
lp x2 £I 234211 
xmin, xmax = np.min(lp x1)-1, np.max(lp x1)-41 
ymin, ymax = np.min(lp x2)-1, np.max(lp x2)+1 
plt.subplot(111) 
plt.xlabel(u"x") 
plt.xlim(xmin, xmax) 
plt.ylabel(u"y") 
plt.ylim(ymin, ymax) 
# 显示 样本 点 
for ii in xrange(0,len(x)): 

ty-svm.pred(x[ii]) 

if ty»0: 

plt.plot(lp x1l[ii], lp x2[ii], showpoint[int(ty)]) 
else: 
plt.plot(lp xl[ii], lp x2[ii], showpoint[int(ty)]l) 


ll 


# 未 知 样本 分 类 

tlp_xl=np.random.rand(50)* (xmax-xmin)+xmin 

tlp x2=np.random.rand(50)* (ymax-ymin) +xmin 

tlp x-np.array(zip(tlp x1,tlp x2)) 

for ii in xrange(0,len(tlp x)): 
ty-svm.pred(tlp x[iil) 


if ty»0: 
plt.plot(tlp x1[ii],tlp x2[ii], tshowpoint[int(ty)]) 
else: 
plt.plot(tlp xl[iil],tlp x2[ii], tshowpoint[int(ty)]) 
plt.show() 


上 述 代 码 中 ， 随 机 生成 了 50 个 数据 作为 待 分 类 未 知 样本 。 如 图 8-30 所 示 是 程序 生成 的 
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分 类 散 点 图 ， 实 心 圆圈 和 星 号 分 别 代 表 两 类 数据 。 运 行程 序 后 ， 将 出 现 图 8-30 的 彩 图 ， 其 
中 红色 的 是 样本 数据 ， 蓝 色 的 是 测试 数据 。 从 图 上 能 直观 看 到 ， 从 图 上 能 直观 看 到 ， 分 类 很 
成 功 。 











us i | —t T T T T o 
70} T d s T 
. e. 
e. e 
60 e e o * 
e * 
g^ e * 
K è e. 9 s * * 
pa e 
40 o * 
e o * * * 
30 s - 
* 
20 à 
- * 
o e * a * " 
* * 
"- 
1 L L xL 1 1 1 
0 1 2 3 4 5 6 4 8 


图 8-30 分 类 散 点 图 


3. 非 线 性 分 类 

非 线 性 分 类 需要 选择 非 线 性 核 函 数 ， 这 里 选择 poly 作为 SVM 的 核 函 数 。 尝 试 将 分 属于 
下 面 两 个 函数 的 坐标 点 分 开 : 

第 一 类 : y-x^atb (a<=2, abs(b)<10 ) 

第 二 类 : y=x^a+b (a>=3, abs(b)<10 ) 

1) 设置 样本 数据 。 代 码 如 下 : 

xs [[21,1];I12;4], [3512], [9,70] , [8,130], [4,13], [5529], [5,1351, (4,681. [20,1000] ;[8; 


520], [7,340], [6,40], [10,150]] 
S-[ph51,011,0,1,7,05:0,0,020,1,1] 


2) 设置 SVM WRR, HEITI. 


x-np.array (x) 

yznp.array (y) 

svm - mlpy.LibSvm(svm type-'c svc', kernel type-'poly', gamma-10) 
svm.learn(x, y) 


3) 随机 产生 待 分 类 数据 ， 进 行 测试 。 代 码 如 下 : 


tlp x10-np.random.rand(100)* (xmax-xmin)-«xmin 

tlp x20-tlp x10**3«np.random.rand(100)*20-10 

tlp xll-np.random.rand(100)*(xmax-xmin)-«xmin 

tlp x21-tlp x11**2«np.random.rand(100)*20-10 

tlp x30-np.random.rand(50)* (xmax-xmin)-xmin 

tlp x3l-tlp x30**(round(np.random.rand()*6,0)43)«np.random.rand(50)*10-5 
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tlp_x40=np.random.rand (50)* (xmax-xmin)+xmin 
tlp_x41=tlp_x30**(round (np.random.rand(),0)+1)+np.random.rand(50)*10-5 


如 图 8-31 所 示 是 程序 生成 的 散 点 图 ， 实 心 圆圈 和 星 号 分 别 代表 不 同类 的 数据 。 数 据点 被 
成 功 划分 为 两 类 : 图 的 左上 部 呈现 递增 曲线 趋势 的 000 
数据 点 划分 到 了 第 2 类 函数 ， 其 余 被 划分 到 第 1 类 。 





z x 800 
完整 的 Python 代码 如 下 : 

#!/usr/bin/env python 600 
4-*- coding: utf-8 -*- > 
#email:myhaspl@qq.com 400 
tauthor: 麦 好 


$8-15.py 200 
import numpy as np 

import matplotlib.pyplot as plt 

import mlpy 








print 'loading zt 图 8-31 分 类 散 点 图 
wn [55 1307 ; (471315 15,29]. 5541351, [4 851 [10,1900], E 
8,520], [7,340], [6,40], [10, 150] 

y-[1,21,1,1,0.1,1,0,0,T^, 0,0, 1,11 

showpoint-['ro','r*'] 

tshowpoint-['bo','b*'] 

x-np.array (x) 

y-np.array (y) 

svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly', gamma-50) 
svm.learn(x, y) 

lp x1 = xir 0] 

lg x2 = zizi] 

xmin, xmax = np.min(lp x1)-0.5, np.max(lp x1)40.5 

ymin, ymax = np.min(lp x2)-0.5, np.max(lp x2)40.5 

plt.subplot(111) 

plt.xlabel(u"x") 

plt.xlim(xmin, xmax) 

plt.ylabel(u"y") 

plt.ylim(ymin, ymax) 


# 显示 样本 点 
for ii in xrange(0,len(x)): 
ty-svm.pred(x[iil) 
if ty»0: 
plt.plot(lp xl[ii], lp x2[ii], showpoint[int(ty)]) 
else: 
plt.plot(lp xl[ii], lp x2[iil, showpoint[int(ty)]) 


# 未 知 样本 分 类 

tlp xl0-np.random.rand(100)*(xmax-xmin)-«xmin 
tlp x20-tlp x10**3«np.random.rand(100)*20-10 
tlp xli-np.random.rand(100)*(xmax-xmin)-sxmin 
tlp x21-tlp x11**2-«np.random.rand(100)*20-10 
tlp x30-np.random.-rand(50)*(xmax-xmin)-«xmin 
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tlp x31-tlp x30**(round(np.random.rand()*6,0)43)«np.random.rand(50)*10-5 
tlp x40-np.random.rand(50)*(xmax-xmin)-xmin 
tlp x41-tlp x30**(round(np.random.rand(),0)«1)«np.random.rand(50)*10-5 
tlp xl-tlp xl10.tolist()-«tlp xll.tolist()«tlp x30.tolist()«tlp x40.tolist() 
tlp x2-tlp x20.tolist()«tlp x21.tolist()«tlp x3l.tolist()«tlp x4l.tolist() 
tlp x-np.array (zip(tlp xl,tlp x2)) 
for ii in xrange(0,len(tlp x)): 
ty-svm.pred(tlp x[iil) 
if ty»0: 
plt.plot(tlp x1l[ii],tlp x2[ii], tshowpoint[int(ty)]) 
else: 
plt.plot(tlp xl[ii],tlp x2[ii], tshowpoint[int (ty)]) 
plt.show() 
下 面 以 rbf 为 核 函 数 完 成 螺旋 型 空间 下 的 分 类 。 代 人 码 如 下 : 
#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
488-16.py 
import numpy as np 
import matplotlib.pyplot as plt 
import mlpy 
f - np.loadtxt("spiral.data") 
X, y = Els, :2], f[:, 2] 
svm = mlpy.LibSvm(svm type-'c svc', kernel type-'rbf', gamma-100) 
svm.learn(í(x, y) 
xmin, xmax - x[:,0].min()-0.1, x[:,0].max()40.1 
ymin, ymax = x[s,l].min()-0.1, x[:;lilmaxt)4D.1 
xx, yy = np.meshgrid(np.arange(xmin, xmax, 0.01), np.arange(ymin, ymax, 0.01)) 
xnew - np.c [xx.ravel(), yy.ravel()] 
ynew - svm.pred(xnew).reshape(xx.shape) 
fig - plt.figure(1) 
plt.pcolormesh(xx, yy, ynew) 
plt.scatter(x[:s,0], x[:,11, Ey) 
plt.show() 
如 图 8-32 所 示 为 分 类 的 效果 图 。 两 类 15 ] E 
数据 被 螺旋 形 分 界线 划分 。 d | 
0.5 J 
8.6 回归 算法 
0.0 ] 
回归 分 析 是 统计 学 上 分 析 数据 的 一 种 方 
法 ， 目 的 在 于 了 解 两 个 或 多 个 变量 间 是 否 相 05 ] 
关 ， 以 及 相关 的 方向 与 强度 ， 并 建立 数学 模 。 1。 | 
型 ， 以 便 观察 特定 变量 来 预测 研究 者 感 兴 趣 
的 变量 , 它 建 立 了 因 变 量 与 自 变量 之 间 的 关 Lis o0 os oo — 5 10 L5 


系 模型 。 


图 8-32 SVM 分 类 的 效果 图 
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8.6.1 线性 代数 基础 

线性 代数 是 数学 的 一 个 分 支 ， 它 的 研究 对 象 是 向 量 、 向 量 空间 (或 称 线性 空间 )、 线 性 变 
换 和 有 限 维 的 线性 方程 组 。 向 量 空间 是 现代 数学 的 一 个 重要 课题 ， 线 性 代数 广泛 地 应 用 于 抽 
象 代数 和 泛 函 分 析 中 ， 并 能 通过 解析 几何 具体 表示 。 线 性 代数 在 机 器 学 习 理论 体系 中 的 地 位 
举足轻重 。 


1. 伴随 矩阵 

在 线性 代数 中 ， 一 个 方形 矩阵 的 伴随 矩阵 是 一 个 类 似 于 逆 和 矩阵 的 概念 。 如 果 和 抑 阵 可 逆 ， 
那么 它 的 逆 和 矩阵 和 它 的 伴随 矩阵 之 间 只 差 一 个 系数 。 

ABE 4 的 伴随 矩阵 是 4 的 余子 矩阵 的 转 置 矩阵 ， 具 体 定义 如 下 : 
ld | E 
0, izj 





it 4=(aj)nxn, Jil — tanda 


BI AA *—A*A-|A|E 


其 中 ， 
Ay An ... Ani 
An A. Am 
A*= -(Aj)-(45)" 
Ain A», ves Anm 
若 4 UD, WA ERDERA A] A (9) A: 
2. 方 阵 的 行列 式 运算 
WA. B nE, W |AB|-A|BI-]B||AI-]BA| 
但 |4+8|=|4|#|8| 不 一 定 成 立 。 
3. 矩阵 与 方 阵 
Gi Gp . Ain 
CGI2 022 …- An 


m x n 4X aj 排 成 m 行 n 列 的 表格 称 为 矩阵 ， 简 记 为 4， 或 (ay)nxn。 若 


m=n， 则 称 4 是 n ERER n 阶 方 阵 。 


4. 矩阵 的 基本 运算 

设 A-(aj), B-(b;) EMA mxn EE, W om x nE C=(cy)=aytbs 称 为 矩阵 4 5j B WA, 
记 为 4+B=C。 

设 A-(aj) E mxn EE, 大 是 一 个 常数 ， 则 到 xz 矩阵 (koi 称 为 数 上 与 矩阵 4 的 数 乘 ， 
记 为 k4。 

设 A-(aj) & mx n B FE, B=(by) Æ nxs EE, IA mxs Cle, HEP, cj-aiby* 
anbat: asby7 2, anby 称 为 4 与 8 的 乘积 , 记 为 C=4B。 
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5. 矩阵 的 秩 
n, r(Ay-n 
EAH nE, W uni r(A)=n-1 
0, r(4)«n-1 


6. 线性 相关 与 线性 无 关 
al02os 线性 相关 全 至 少 有 一 个 向 量 可 以 用 其 余 向 量 线性 表示 。 
车 04,025, * *,O s 线性 无 关 ， 04,02,**,05, P £X ETHOECS b 可 以 由 04,00, * * Gs 唯一 线性 表示 。 


8.6.2 ”最 小 二 乘法 原理 


1. 范 数 
在 向 量 空间 RC 中 ， 设 x-0, zx) ， 向 量 范 数 定义 如 下 : 
x 的 2- 范 数 或 欧 氏 范 数 计算 公式 为 : 
Il x 2 (a Ha + + ) 
x 的 1- 范 数 计算 公式 为 : 
Il x Im pape peo en] 
x 的 % 范 数 或 最 大 范 数 计算 公式 为 : 


Ilx Ila = max |x; | 
I<i<n 


x B p 范 数 计算 公式 为 : 
ll x ll p pal pool x, |?) 

4 的 行 范 数 计算 公式 如 下 : 
14I= ma -mx $ia | 

A 的 列 范 数 计算 公式 如 下 : 


a =max J'a, | 


#0 l| x |l jen 


4 的 2- 范 数 或 谱 范 数 计算 公式 如 下 : 
l| 4 儿 = max wal 2k- h (474) 


ze JX 

其 中 Amax(47A) 为 ATA 的 最 大 特征 值 。 7 

2. 算法 目标 

线性 回归 算法 通过 适合 的 参数 ， 使 函数 与 观测 值 之 差 的 平方 和 最 小 ， 即 
min o. =y) 

1) 二 元 线性 回归 。 首 先 将 线性 回归 函数 定义 为 如 下 形式 


y—Xi otxit 
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根据 其 算法 目标 ， 得 到 下 式 : 


min 


Nol 


EE 


Lo 2240670079) 
(0 MAGO 


X= y -Xıl 








min | 4x-pl, 








解 上 式 ， 得 到 如 下 形式 : 


其 中 = 六 46。 为 7 值 的 算术 平均 值 。 
2) 多 元 线性 回归 。 将 多 个 不 相关 变量 1.…,1,， 组 成 下 面 线 性 函数 : 


y(hi,* stg Xo, 1 X9) Xo xil: xul 


上 式 可 写成 Ax-b 的 形式 ， 如 下 所 示 : 


1 hoc ty "T fig Xo yi 
x 

1 bhi e bj "m b 1 ya 

$ X2 " 

l ta oce ty sss ta M s » 

1 tm tnj ... baj x, Yn 


接着 求解 目标 函数 : 
min|4. 5| AE Chet 


其 特 解 为 4 的 广义 北 矩 阵 与 5 的 乘积 ， 这 同时 也 是 2- 范 数 极 小 的 解 ， 其 通 解 为 特 解 加 
上 4 的 零 空 间 。 


8.6(3 ”线性 回归 


1. 回归 模型 求解 

上 节 讲 述 了 一 些 多 元 线性 回归 模型 ， 可 表示 为 Ax-b 的 形式 ,求解 回归 模型 就 是 求解 4 
代表 的 参数 值 的 估计 值 ， 求 解 过 程 就 是 线性 回归 的 过 程 。 根 据 最 小 二 乘 原理 及 相关 数学 推 
导 ， 参 数 估计 值 为 : 


B-QCXy'X'T 
2. 一 元 线性 回归 
如 果 随 机 变量 与 变量 x 之 间 呈 现 某 种 线性 关系 ， 则 ? 与 x 之 间 一 元 线性 回归 模型 为 : 
P=atbx 


上 式 也 称 变量 了 对 变量 x 的 一 元 线性 回归 方程 , a、b 称 为 回归 系数 。 
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根据 前 面 讲述 的 最 小 二 乘法 原理 ， 用 Python 编码 实现 。 


#!/usr/bin/env python 

4 -*- coding: utf-8 -*- 
dtcode:myhaspl8qgq.com 
#8-17 .py 


import matplotlib.pyplot as plt 

x 2[1,2,3,3,6,12,.11] 

y^ 2[345;855;12,26,20:] 

average x-float (sum(x))//len(x) 
average y-float(sum(y))/lenty) 

x sub-map((lambda x:x-average x),x) 
y_sub=map ( (lambda x:x-average y),y) 

x sub pow2-map((lambda x:x**2),x sub) 
y sub pow2-map((lambda x:x**2),y. sub) 
x y-map((lambda x,y:x*y),x sub,y sub) 
a-float(sum(x y))/sum(x sub pow2) 
b-average y-a*average x 
plt.xlabel('X') 

plt.ylabel('Y') 

plt.plot(x, y, '*') 
plt.plot([0,15],[0*a4b,15*a4b]) 

plt gridt) 
plt.title("(0)*x4(1)".format(a,b)) 
plt.show() 


如 图 8-33 所 示 为 程序 绘制 的 散 点 图 ， 这 些 数据 点 呈 明 显 的 线性 趋势 ， 程 序 将 它们 的 线性 
趋势 绘制 成 一 条 回归 线 ， 回 归 效 果 不 错 。 


3. 多 元 线性 回归 

一 元 线性 回归 是 指 将 一 个 主要 影响 0p 
因素 作为 自 变 量 ， 分 析 自 变量 的 变化 如 25 上--…-- 
何 引起 因 变 量 的 变化 。 在 现实 问题 的 研 
究 中 ， 因 变量 的 变化 往往 受 几 个 重要 因 > 
素 的 影响 ， 此 时 就 需要 用 两 个 或 两 个 以 | 一 
上 的 影响 因素 作为 自 变 量 来 解释 因 变 量 — 10 LÁ siiis dessus] 
的 变化 ， 这 就 是 多 元 回归 。 

Wy AASE, x1, x2…, x BE ' ' 
量 ， 并 且 自 变 量 与 因 变 量 之 间 为 线性 关 090—334 
系 时 ， 则 多 元 线性 回归 模型 为 : 

y=botbixit+b2ax2t***+brxxte 
根据 最 小 二 乘法 ， 使 用 Python 来 实现 这 个 回归 模型 。 代 码 如 下 : 
#!/usr/bin/env python 


# -*- coding: utf-8 -*- 
#code:myhaspl@qg.com 





1.9087635054*x+1.7418967587 
35 T T 一 和 T T 
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图 8-33 
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ww ai bbt. com r1 BH D BL B. GO. 


292 ss 第 四 部 分 机 器 学 习 实 战 篇 


#8-18.py 
import numpy as np 
x -np.matrix([[7,2,3],[3,7,17], [11,3,5]], dtype-np. f 10oat64) 
y -np.matrix([28,40,44],dtype-np.float64).T 
Bbex.m*x).T*x.Ty 
print u" 参数 项 矩阵 为 {0}".format (b) 
i-0 
cb-[] 
while  i«3: 
cb.append (b[i,0]) 
i+=1 
temp_e=y-x*b 
mye-temp e.sum()/temp e.size 
e-np.matrix([mye,mye,mye]).T 
print "y-$f*xl«$f*x24$f*x34$f"$(cb[0],cb[1],cb[2],mye) 


上 述 代码 计算 了 参数 估计 值 ， 并 列 出 了 多 元 线性 回归 方程 。 


参数 项 矩阵 为 [[ 3.] 

[2x] 

i^ dus 
y-3.000000*x142.000000*x241.000000*x34-0.000000 


8.64 ”多 元 非 线 性 回归 


AR. FL 2E E XA An 与 因 变 量 了 皆 具 有 非 线性 关系 ， 或 者 有 的 为 非 线 性 ， 有 的 为 线 
性 ， 则 需要 选择 多 元 非 线性 回归 模型 。 非 线性 回归 方程 很 难 求解 ， 通 常 把 非 线性 回归 转化 为 
线性 回归 ， 然 后 应 用 最 小 二 乘法 求解 。 

例如 ， 非 线性 回归 方程 模型 为 : 


1 b 
一 三 和 圭一 
y x 
首先 ， 进 行 变 量变 换 。 
x=} 
x 
y-l 
D 
经 过 变换 后 ， 将 其 化 为 线性 模型 。 
Y-a-bX 


然后 ， 再 用 最 小 二 乘法 求 出 参数 的 估计 值 。 最 后 经 过 适当 的 变换 ， 得 到 所 求 回归 曲线 。 
1. 一 元 三 次 回归 模型 


一 元 三 次 回归 模 为 : 
$39bobix-bax^ bx? 
用 Python 代码 实现 : 


*$!/usr/bin/env python 
# -*- coding: utf-8 -*- 
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#code:myhaspl@qq .com 

#8-19 .py 

#y=bl*x+b2* (x^2)-4b3* (x^3) 

import numpy as np 

import matplotlib.pyplot as plt 

z-np.matrix([3,1.4,1.9]).T 

myx -np.matrix([[7],[3],[91],Gtype-np. f1oat64) 

x = np.matrix([[myx[0,0],myx[0,0]**2,myx[0,0]**3], 
[myx[1,0],myx[1,0]**2,myx[1,0]**3], V 
[myx[2,0],myx[2,0]**2,myx[2,0] **3]] , ^ 
dtype-np.float64) 

y zx*z 

DeüxT*x].I*x«.T*- 

print un 参数 项 矩阵 为 {0}" .Eormat (b) 

i-0 

cb-[] 

while  i«3: 

cb.append (b[i,0]) 
i--1 

temp e-y-x*b 

mye-temp e.sum()/temp e.size 

e-np.matrix([mye,mye,mye]).T 


print "y-&f*x4$f*x^2«£f*x^34$f"$(cb[0],cb[1],cb(2],mye) 


pltx-np.linspace(0,10,1000) 
plty-cb[0]*pltx«cb[1]*(pltx**2)-«cb[2]* (pltx**3) «mye 
plt.plot(myx,y,"*") 

plt.plot(pltx,plty) 

plt.show() 


程序 运行 后 ， 计 算 参 数 估计 值 以 及 最 终 的 回归 方程 。 


参数 项 矩阵 为 [[ 3. ] 

[ 1.4] 

[ 1.91] 
y-3.000000*x41.400000*x^241.900000*x^3«0.000000 


非 线 性 回归 方程 表现 为 曲线 ， 如 图 8-34 所 





上 述 代码 生成 的 回归 曲线 。 


2. 二 元 二 次 多 项 式 回归 方程 
二 元 二 次 多 项 式 回归 方程 为 : 
$—a*buxitbaxrtbixitbaaxibisoyxixa 
4 bi=b1n,b2=b21,b3=b12,b4=b22,b5=b 11x22 
XIXA AAN Xs * X 
这 样 上 式 即 可 化 为 以 下 五 元 一 次 线性 回归 
0 2 
$—a- bixibax baxy baxat bsxs 
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根据 推导 结果 来 看 ， 可 以 按 多 元 线性 回归 方法 计算 各 偏 回归 系数 ， 建 立 二 元 二 次 多 项 式 
回归 方程 。 
下 面 用 Python 求解 二 元 二 次 多 项 式 回归 方程 。 





#!/usr/bin/env python 

f$ -*- coding: utf-8 =*= 
dcode:myhaspleqg.com 
48-20.py 

dy-bl*x14b2* (x2^2)-4b3*x1*x2 
import numpy as np 


z-np.matrix([3,1.4,1.9]).T 
myx -np.matrix([[7,3],[3,17],[11,5]],Gtype-np.float64) 
x = np.matrix([[myx[0,0],myx[0,1]**2,myx[0,0] *myx[0,1]], N 
[myx[1,0],myx[1,1]**2,myx[1,0]*myx[1,1]], V 
[myx[2,0] ,myx[2,1]**2,myx[2,0] *mypx[2,111],* 
dtype-np.float64) 
y^ xx 
Da (3c. 3c]. T 56 Tr 
print u" 参数 项 矩阵 为 {0}" .format (b) 
i-0 
cb-[] 
while  i«3: 
cb.append (b[i,0]) 
i+=1 
temp e-y-x*b 
mye-temp e.sum()/temp e.size 
e-np.matrix([mye,mye,mye]).T 


print "y-$f*x1«$f*x2^2«$f*xl*x2«$f"$(cb[0],cb[1],cb[2],mye) 
程序 计算 回归 方程 的 参数 后 ， 列 出 回归 方程 ， 如 下 所 示 : 


参数 项 矩阵 为 [[ 3. ] 

[ 1.4] 

i 1.931 
y-3.000000*x1«1.400000*x2^241.900000*x1*x24-0.000000 


8.6.5 ”上 岭 回归 方法 

只 有 正方 形 (nxn) 的 矩阵 (也 称 为 方 阵 )， 才 可 能 有 但 非 必然 有 逆 和 矩阵 。 若 方 阵 A 的 逆 
矩阵 存在 ， 则 称 4 为 非 奇 异 方 阵 或 可 逆 方 阵 。 回 顾 一 下 参数 项 的 求解 公式 : 

B -UPxyur 

这 样 就 产生 了 一 个 问题 : MRTE ER EA ERE EDE EE, BI ERR AE 
阵 不 存在 了 ， 怎 样 求解 参数 项 呢 ? 

此 外 ， 某 些 自 变 量 之 间 可 能 存在 共 线 性 ， 这 也 给 求 逆 带 来 了 麻烦 。 岭 回归 方法 可 以 解决 
这 个 问题 ， 它 是 一 种 专用 于 共 线 性 数据 分 析 的 有 偏 估计 回归 方法 ， 实 质 上 它 是 一 种 改良 的 最 
小 二 乘 估计 法 ， 是 通过 放弃 最 小 二 乘法 的 无 偏 性 ， 以 损失 部 分 信息 、 降 低 精 度 为 代价 ， 获 得 
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回归 系数 更 为 符合 实际 、 更 可 靠 的 回归 方法 ， 对 病态 数据 的 耐 受 性 远 远 强 于 最 小 二 乘法 。 其 
基本 原理 是 : 

给 参数 项 求解 公式 中 的 ZX 部 分 加 上 正常 数 矩 阵 KE (90), DUI XXH 接近 奇异 的 程度 较 
小 ， 如 果 8 可 道 ， 则 参数 的 求解 公式 变 为 ; 

B (k)-QCX-kIy X'Y 

其 中 大 称 为 岭 参 数 。8 Qo 作为 有 的 估计 应 比 最 小 二 乘 估计 8 稳定 ， 当 k-O 时 ， 岭 回归 估 
计 就 是 普通 的 最 小 二 乘 估计 。 因 为 岭 参 数 上 不 是 唯一 确定 的 ， 所 以 得 到 的 岭 回 归 估 计 记 (有 实 
际 是 对 回归 参数 B 的 估计 值 。 

选择 一 个 适合 的 岭 参数 很 重要 ， 岭 迹 法 是 方法 之 一 。 选 择 的 原则 是 : 

口 各 回归 系数 的 岭 估 计 基 本 稳定 。 

口 系数 符号 变 得 合理 。 

口 残 差 平方 和 。 

O 取 使 方程 基本 稳定 的 最 小 天 值 。 


8.6.6” 伪 逆 方 法 

除了 岭 回 归 方 法 ， 伪 北方 法 也 是 一 种 不 错 的 方法 ， 它 是 对 逆 阵 的 推广 。 一 般 所 说 的 伪 逆 
是 指 MoorePenrose t, CH E. H. Moore 和 Roger Penrose 分 别 独立 提出 的 。 

一 个 与 4 的 转 置 矩 阵 AT 同型 的 矩阵 X， UE: AXA-A, XAX-X, Uti, PIERE X ONE 
阵 4 的 伪 逆 ， 也 称 为 广义 逆 矩 阵 。 

numpy 提供 了 求 伪 逆 的 函数 linalg.pinv0， 可 调用 numpy 的 这 个 方法 对 一 组 数据 进行 回 
归 分 析 ， 这 组 数据 不 适合 用 前 面 介绍 的 非 线性 回归 算法 计算 。 代 码 如 下 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 
tcode:myhaspl8qq.com 

#8-21 .py 
fyzbl*xl«b2*x24b3* (Xx1^2)+b4* (x2^2) 4b5*x1*x2 
import numpy as np 


znb- Ta 

myx -np.matrix([[7,3],[3,17],[11,5]],dtype-np.fioat64) 

x = np.matrix([[myx[0,0],myx[0,1],myx[0,0] **2,myx[0,1]**2,myx[0,0] *myx[0,1]], N 
[mÁyx[1,0],myx[l,1];,myx[1,0]**2,myx[1,1]**2,myx[1,0]*myx[1,1]],* 
[myx[2,0],myx[2,1],myx[2,0] **2,myx[2,1]**2,myx[2,0] *myx[2,11]11]., N 
dtype-np.float64) 


y —x*- 
wn-np.linalg.pinv(x.T*x) 
b-wn*x.T*y 
print un 参数 项 矩阵 为 101" .format (b) 
i-0 
cb-[] 
while  i«5: 

cb.append (b[i,0]) 
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i+=1 
temp e-y-x*b 
mye-temp e.sum()/temp e.size 
e-np.matrix([mye,mye,mye]).T 


print "y-$f*xl«$f*x24$f*(x1^2)«$f£*(x2^2)«$f*x1*x24$f"$(cb[0],cb[1],cb[2],cb[3], 
cb[4],mye) 


程序 运行 后 ， 输 出 的 参数 矩阵 及 回归 方程 如 下 : 


参数 项 矩阵 为 [[ 1.59659657] 
[ 0.69002152] 
[ 2.01029166] 
[ 0.9820693 ] 
[ 0.4052783 ]] 
y-1.596597*x140.690022*x242.010292*(x1^2)40.982069*(x2^2)*0.405278*x1 
*x24-0.000000 


8.7 PCA 降 维 


PCA 主要 用 于 数据 降 维 。 由 一 系列 特征 组 成 的 多 维 向 量 ， 其 中 某 些 元 素 本 身 没 有 区 分 
性 ， 比 如 某 个 元 素 在 所 有 的 样本 中 都 相等 ， 或 者 彼此 差距 不 大 ， 那 么 这 个 元 素 本 身 就 没有 区 
分 性 ， 如 果 用 它 做 特征 来 区 分 ， 贡 献 会 非常 小 。 我 们 的 目的 是 找到 那些 变化 大 的 元 素 ， 即 方 
差 大 的 维 ， 而 去 除 掉 那 些 变化 不 大 的 维 。 

使 用 PCA 的 好 处 在 于 ， 可 以 对 新 求 出 的 “ 主 元 ”向 量 的 重要 性 进行 排序 。 根 据 需 要 取 
前 面 最 重要 的 部 分 ， 将 后 面 的 维 数 省 去 ， 从 而 达到 降 维 、 简 化 模型 或 对 数据 进行 压缩 的 效 
果 。 同 时 最 大 程度 地 保持 了 原 有 数据 的 信息 ， 较 低 的 维 数 意 味 着 运算 量 的 减少 ， 在 数据 较 多 
的 情况 带 来 的 性 能 提高 更 明显 。 

PCA 通过 将 主 成 分 分 析 的 问题 转化 为 求解 协 方差 矩阵 的 特征 值 和 特征 向 量 来 计算 。 甚 目 
标 是 寻找 r(ren) 个 新 变量 ， 使 它们 反映 事物 的 主要 特征 ， 压 缩 原 有 数据 矩阵 的 规模 ， 每 个 新 
变量 是 原 有 变量 的 线性 组 合 ， 体 现 原 有 变量 的 综合 效果 ， 这 个 新 变量 称 为 “ 主 成 分 ， 它 们 
可 以 在 很 大 程度 上 反映 原来 n 个 变量 的 影响 ， 并 且 这 些 新 变量 是 互 不 相关 的 ， 也 是 正 交 的 。 

以 将 数据 的 维 数 从 NN 降 到 5 为 例 ，PCA 算法 过 程 如 下 : 

1) 计算 样本 矩阵 扎 协 方差 矩阵 。 

2 ) 计算 协 方差 矩阵 S 的 特征 向 量 e1,ez…,ew 及 其 特征 值 天 1,2,…,N。 

3) 把 特征 值 按 从 大 到 小 排序 ， 取 前 5 位 特征 值 对 应 的 特征 向 量 组 成 投影 矩阵 Wo 

4) 投影 数据 到 丈 组 成 的 空间 之 中 。 

上 述 算法 过 程 较 抽象 ， 理 解 它 的 最 好 方式 就 是 动手 实现 它 。 下 面 编写 一 段 Python 程序 ， 
使 用 mlpy 库 提 供 的 PCA 类 ， 实 现 PCA 算法 。 

*!/usr/bin/env python 


# -*- coding: utf-8 -*- 
tcode:myhaspleqgq.com 
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#8-22.py 

import numpy as np 

import matplotlib.pyplot as plt 

import mlpy 

np.random.seed(0) 

mean, cov, n = [0, O0], f[1,1],T11,1.5]], 100 
np.random.multivariate normal(mean, cov, 
pca = mlpy.PCA() 
pca.learn(x) 

coeff - pca.coeff() 
fig - plt.figure(1) 
ploti pit.plot (x[s; 
plot2 plt.plot([0,coeff[0, 
plot3 = plt.plot([0,coeff[0, 
plt.xlim(-4, 4) 
plt.ylim(-4, 4) 
pca.transform(x, k-1) 
xnew = pca.transform inv (z) 
fig2 - plt.figure(2) 
piloti = plt.plot(xnew[:, 
xx = plt.xlim(-4, 4) 

yy - plt.ylim(-4, 4) 
plt.show() 


如 图 8-35 所 示 是 程序 生成 的 两 张 散 点 图 ， 左 边 是 数据 降 维 前 的 效果 ， 右 边 是 数据 降 维 


x = n) 


Ol: x2; 1], 
011, 
TJ) 


'o!) 
[0, coeff, 
[0, coeff[1, 


linewidth-4, 
linewidth-4, 


colors'r") 
color-'g') 


01], 
Tila 


XX = 
vy = 
Zz = 


0], xnew[:, 1], 


后 的 效果 。 能 明显 看 出 数据 降 维 后 ， 数 据 的 整体 趋势 并 没有 改变 ， 最 大 程度 地 保持 了 原 有 数 
据 的 信息 。 
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图 8-35 数据 降 维 


8.8 ”关联 规则 


8.8.1 


关联 规则 概述 
以 购买 商品 为 例 进行 分 析 ， 假 设 某 顾客 同时 购买 了 A 商品 和 B 商品 ， 然 后 又 购买 了 C 


商品 ， 也 就 是 说 此 次 共 买 了 商品 {A,B,C}， 则 可 把 {A,B}, (C). (A,B,C) 称 为 项 集 (购买 
项 目的 集合 )， 可 以 建立 一 条 规则 ， 同 时 买 了 A 和 了 B 两 种 商品 的 顾客 可 能 会 买 C 商品 ， 记 为 
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{A,B}->{C}， 这 样 通过 一 定数 量 的 购买 记录 就 能 分 析出 用 户 的 购买 习惯 。 可 将 这 一 过 程 用 形 
式 化 语言 进行 如 下 定义 : 

项 集 1 由 若干 个 项 目 组 成 ,事务 1 由 若干 个 项 集 组 成 ,事务 集 7T 由 若干 个 事务 1 组 成 ， 
RME XER ET 的 一 个 子 集 ， 也 可 记 为 xE1,， 分 析 事 务 集 ， 在 指定 支持 度 和 置信 和 度 满 
足 的 情况 下 ,认为 规则 敌 > 了 成 立 (XY 和 了 均 为 项 集 )， 则 称 闻 为 前 件 ， 了 为 后 件 。 

支持 度 的 计算 公式 如 下 : 


支持 度 =T 中 包括 针 UY 的 百分比 = 
其 中 RASSE T 的 事务 数量 ，count 表示 数量 。 


count KUD 
n 


置信 和 度 的 计算 公式 如 下 : 
置信 度 -T Hat X U Yaa -mU T) 
count(X) 
其 中 count 表示 数量 。 


置信 和 度 可 理解 为 条 件 概率 ， 即 : 在 事务 集中 ,，X 项 集 存在 的 前 提 下 ， 项 集 Y 存 在 的 可 能 
ME; 支持 度 可 理解 为 事务 集 了 中 和 和 了 项 集 同 时 存在 的 概率 。 可 给 支持 度 和 置信 度 设置 一 个 
阔 值 ， 若 这 两 个 指标 均 大 于 这 个 阔 值 ， 则 可 生成 关联 规则 。 


8.8.2 ”频繁 项 集 算法 


1. Apriori 算法 

Apriori 算法 是 一 种 挖掘 布尔 关联 规则 频繁 项 集 的 算法 ， 其 核心 是 基于 两 阶段 频 集 思想 的 
递 推 。 该 关联 规则 在 分 类 上 属于 单 维 、 单 层 、 布 尔 关联 规则 ， 所 有 支持 度 大 于 最 小 支持 度 的 
项 集 称 为 频繁 项 集 ， 简 称 频 集 。 算 法 的 目标 是 寻找 最 大 的 频繁 项 集 ， 算 法 过 程 如 下 : 

1) 简单 统计 所 有 包含 一 个 元 素 的 项 集 出 现 的 频数 ， 并 找 出 那些 不 小 于 最 小 支持 度 的 项 
集 ， 即 一 维 最 大 项 集 。 

2) 继续 循环 处 理 直 到 再 没有 最 大 项 集 生成 为 止 。 循 环 过 程 是 : 第 k 步 中 ,根据 第 1 
步 生 成 的 k- 1 维 最 大 项 集 产 生 大 维修 选项 集 ， 然 后 对 数据 库 进 行 搜索 ， 得 到 候选 项 集 的 项 集 
支持 度 ， 并 与 最 小 支持 度 进行 比较 ， 从 而 找到 k 维 最 大 项 集 。 

下 面 以 一 个 例子 来 直观 说 明 算 法 的 过 程 。 假 设 有 一 个 数据 库 表 sales， 其 中 有 4 个 购买 事 
务 ， 如 图 8-36 所 示 。 

1 ) 将 最 小 支持 度 Minsup 设 定 为 2， 算 法 的 运行 过 程 如 图 8-37 所 示 。 















[=] 
[. 1 S — | [a0 [| um | 
图 8-36 数据库 表 sales 的 购买 事务 图 8-37 Apriori 算法 过 程 : 设 定 最 小 支持 度 
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2) 扫描 上 述 sales 表 ， 对 每 个 候选 项 进行 支持 度 计 数 ， 得 到 表 C1, An 8-38 所 示 。 
3) 比较 候选 项 支持 度 计 数 与 最 小 支持 度 Minsup， 产 生 1 维 最 大 项 集 L1， 如 图 8-39 
所 示 。 














ET 
[m ]— | 


RW 


2 
E 1——1—— 


图 8-38 Apriori 算法 过 程 : 候选 项 支持 度 计数 图 8-39 Apriori 算法 过 程 : 产生 1 维 最 大 项 集 











4) BL LI 产生 候选 项 集 C2， 如 图 8-40 所 示 。 
5 ) 扫描 sales 表 ， 对 每 个 候选 项 集 进行 支持 度 计 数 ， 如 图 8-41 所 示 。 


支持 度 计数 
11,12} 


图 8-40 Apriori 算法 过 程 : 产生 2 维 候选 项 集 ”图 8-41 Apriori 算法 过 程 : 2 维 候选 项 集 支 持 度 计 数 


6) 比较 候选 项 支持 度 计数 与 最 小 支持 度 








2 
2 
3 












Minsp, PUE2AENOONGE L2, ME $42 Br. 
7) 由 L2 产生 候选 项 集 C3， 如 图 8-43 所 示 。 
8) 比较 候选 项 支持 度 计数 与 最 小 支持 度 

Minsup， 产 生 3 维 最 大 项 集 L3， 如 图 8-44 所 示 。 
9 ) 至 此 ， 算 法 终止 。 图 8-42 ”Apriori 算法 过 程 : 产生 2 维 最 大 项 集 
Apriori 算法 的 主要 缺点 如 下 : 


口 每 一 步 都 要 产生 候选 项 集 ， 循 环 产生 的 ms 


| NENNEN 
组 合 过 多 ， 没 有 排除 不 应 该 参与 组 合 的 
元 素 ， 组 合 随 着 数据 库 记 录 的 增加 呈现 “图 8-43 Apriori 算法 过 程 : 产生 3 维 候选 项 集 
出 几何 级 数 的 增加 。 


口 每 次 计算 项 集 的 支持 度 时 ， 都 对 事务 集 
中 的 全 部 记录 进行 了 一 遍 扫 描 ， 从 而 增 
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2. FP-growth 算法 

针对 Apriori 算法 的 性 能 瓶颈 问题 一 一 需要 产生 大 量 的 候选 项 集 和 重复 地 扫描 数据 库 ， 
2000 年 Jiawei Han 等 人 提出 了 基于 FP 树 生 成 频繁 项 集 的 FP-growth 算法 。 该 算法 只 需要 进 
行 两 次 数据 库 扫描 且 它 不 必 使 用 侯 选 集 ， 直 接 将 数据 库 压 缩 成 一 棵 频繁 模式 树 ， 最 后 通过 这 
棵 树 生 成 关联 规则 。 研 究 表明 它 比 Apriori 算法 大 约 快 一 个 数量 级 。 

FP-growth 算法 是 一 种 不 产生 候选 模式 而 采用 频繁 模式 增长 的 方法 挖掘 频繁 模式 的 算法 。 
算法 只 需要 两 次 数据 扫描 : 

第 一 次 扫描 数据 库 ， 得 到 1 维 频繁 项 集 。 

第 二 次 扫描 数据 库 ， 利 用 1 维 频繁 项 集 过 滤 数 据 库 中 的 非 频 繁 项 ， 同 时 生成 FP 树 。 

由 于 FP 树 蕴涵 了 所 有 的 频繁 项 集 ， 其 后 频繁 项 集 的 挖掘 只 需要 在 FP 树 上 进行 即 可 。FP 
树 挖 掘 由 以 下 两 个 阶段 组 成 : 

第 一 阶段 建立 FP 树 ， 即 将 数据 库 中 的 事务 构造 成 一 棵 FP 树 。 

第 二 阶段 为 挖掘 FP 树 ， 即 针对 FP 树 挖掘 频繁 模式 和 关联 规则 。 

FP-growth 算法 可 具体 描述 如 下 : 

口 输入 : 事务 数据 集 D， 最 小 支持 度 Minsup。 

口 输出 : 频繁 模式 的 完全 集 。 

具体 方法 如 下 。 

首先 ， 按 如 下 方法 构建 FP 树 。 

1) 扫描 事务 数据 库 ， 收 集 频繁 项 集 F 并 统计 支持 度 ， 对 下 按 支持 度 降序 排序 ， 得 到 频 
率 排序 好 的 项 表 Lo 

2) 创建 FP 树 的 根 节点 ， 用 “null” 标 记 它 。 对 于 D 中 的 每 个 事务 T， 执 行 : 选择 T 中 
的 频繁 项 ， 并 按 工 中 的 顺序 排序 。 设 排序 后 的 频繁 项 表 为 [plP]， 其 中 p 是 第 一 个 元 素 ， 而 了 
是 剩余 元 素 的 表 。 调 用 insert tree([p|P],T)。 该 过 程 执行 情况 如 下 : 

如 果 T 有 子女 N 使 得 N.itemName=p.itemName， 则 N 的 计数 增加 1; 否则 创建 一 个 新 节 
点 N， 将 其 计数 设置 为 1， 链接 到 它 的 父 节 点 T， 并 且 通 过 节点 链 结构 将 其 链接 到 具有 相同 
itemName 的 节点 。 如 果 了 非 空 ， 则 递归 地 调用 insert tree(PN)。 

其 次 ， 通 过 FP-growth(Tree, o.) 函数 来 实现 FP 树 的 规则 ， 初 始 调用 FP-growth(Tree,null)) 
的 描述 如 下 : 

if Tree 含 单个 路 径 P then ( 


for 路 径 P 中 节点 的 每 个 组 合 ( 记 作 B ) 
产生 模式 B U a ， 其 支持 度 为 support=B 中 节点 的 最 小 支持 度 ; 





} 

else for each ai 在 Tree 的 头 部 do ( 
产生 模式 B=ai U a, 其 支持 度 为 support=ai.support 
构造 B 的 条 件 模式 ， 然 后 构造 B 的 条 件 FP 树 TreeB; 
if TreeB x €f then 

3H FP growth(TreeB, B) 

) 


end 
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8.8.3 ”关联 规则 生成 


1. 关联 规则 生成 算法 

设 f 为 一 个 频繁 项 集 ，a 为 后 件 ， -a 为 前 件 ， 可 将 (fa) ->a 设 为 一 条 关联 规则 。 如 果 
(f-a) ERKE, M) (fas) 一 as 也 是 关联 规则 ，as 为 a 的 某 个 非 空 子 集 ， 所 有 以 asw 为 
后 件 的 规则 都 成 为 候选 关联 规则 ， 候 选 关 联 规则 在 支持 度 和 置信 度 都 大 于 指定 国 值 时 ， 可 生 
成 关联 规则 。 

支持 度 的 计算 方式 如 下 : 


count( f) 
sup- —— — —- 
n 


其 中 , n 为 事务 集中 事务 的 数量 。 
置信 和 度 的 计算 方式 如 下 : 
a count( f) 


count( J-a) 

当 支 持 度 conf> 最 小 支持 度 minconf、 置 信和 度 sup» 最 小 置信 和 度 minsup 时 ， 可 生成 如 下 

规则 : 
(/-a)-»a 

产生 频繁 项 集 后 ， 就 可 计算 关联 规则 了 ， 具 体 算法 可 采用 如 下 方式 。 

第 一 步 ， 从 频繁 项 集 /中 生成 1 项 后 件 的 候选 关联 规则 ， 并 从 中 挑选 conf>minconf 和 
sup>minsup 的 候选 规则 作为 关联 规则 。 

第 二 步 ， 利 用 现 有 三 1 项 后 件 的 关联 规则 ， 生 成 上 项 后 件 的 候选 关联 规则 ， 从 中 挑选 
conf»minconf 和 sup>minsup 的 候选 规则 作为 关联 规则 。 


2. 关联 规则 生成 例子 
下 面 以 图 8-36 所 示 的 sales 数据 表 中 的 频繁 项 集 为 例 ， 讲 解 如 何 使 用 最 大 频繁 项 集 L3 ^E 
成 关联 规则 。 设 定 minconf 为 60%，minsup 为 70%, 
在 此 仅 分 析 一 次 频繁 项 集 L3， 如 图 8-45 所 示 。 
首先 ， 从 1 项 后 件 的 候选 关联 规则 开始 。 根 据 L3 


生成 以 下 候选 关联 规则 : 图 8-45 频繁 项 集 L3 
(1) {12,13}->{15} [sup-2/4,conf-2/2] 
(2) {12,15}->{13} [sup-2/4,conf-2/3] 
(3) {13,15}->{12} [sup-2/4,conf-2/2] 


根据 minconf 和 minsup 的 限制 ， 选 择 规则 (2) 作为 生成 规则 H1, Un Fr. 
{12,15}->{13} 

然后 ， 根 据 Hl1， 生 成 2 项 后 件 候选 关联 规则 ， 如 下 所 示 。 

{12}-> {13,15} [sup=2/4,conf=2/3] 

上 述 候选 关联 规则 满足 minconf 和 minsup 的 要 求 ， 因 此 将 它 作为 生成 规则 H2。 
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最 后 ,根据 频繁 项 集 L3 生成 以 下 两 条 关联 规则 : 
H1:{12,15}->{13} 
H2: {12}->{13,15} 


8.84 ”实例 分 析 
下 面 以 分 析 购 买 记录 为 例 ， 分 别 就 Apriori 算法 和 FP-growth 算法 讲解 频繁 项 集 和 关联 规则 。 


1. Apriori 算法 
假设 某 超级 市 场 的 小 吃 和 饮料 信息 如 表 8-1 所 示 。 


表 8-1 超级 市 场 的 小 吃 和 饮料 清 










































12 'Apple' 'Food' 
13 'Apricot 'Food' 
47 'Vanilla' '"Frappuccino' 'Drink' 











48 "Cherry! 'Soda' 1.29 'Drink' 
49 'Single' 'Espresso' 1.85 "Drink 
K 8-1 的 第 1 列表 示 食 品 编号 ID ， 之 后 的 列 依次 是 口味 、 品 种 、 价 格 、 类 别 。 
商品 购买 记录 如 表 8-2 所 示 。 


表 8-2 ”小 吃 和 饮料 的 购买 记录 
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表 8-2 中 第 一 列 为 订单 编号 ID， 以 后 各 列 依次 为 每 个 订单 所 点 的 食品 ID。 比如 第 一 个 
订单 的 记录 为 “1,7,15,44,49”"， 表 示 订 单 1 购买 了 Coffee Éclair, a Blackberry Tart, Bottled 
Water 和 Single Espresso。 

首先 ， 下 载 Apriori 程序 包 并 解压 。 本 书 源码 包 中 附带 了 apriori.py 程序 以 及 相关 数据 ， 
也 可 以 直接 去 github.com 下 载 : https://github.com/BastinRobin/apriori-python。 本 书 源码 包 的 
下 载 地 址 见 前 言 。 

然后 ， 打 开 命 令 行 ， 以 最 小 支持 度 3% 及 最 小 置信 度 70% 为 标准 ， 分 析 顾 客 的 食品 消费 
习惯 : 


python apriori.py data/1000/1000-outi.csv .03 .7 


运行 结果 如 下 : 
Dataset: data/1000/1000-outl.cs MinSup: 0.03 MinConf: 0.7 
L Berry Tart (14), Bottled Water (44) support- 0.034 
2 Strawberry Cake (4), Napoleon Cake (9) support- 0.049 
3 Chocolate Cake (0), Casino Cake (2) support- 0.04 
4 Raspberry Cookie (23), Lemon Lemonade (40) support- 0.031 
5 Marzipan Cookie (27), Tuile Cookie (28) support- 0.053 
6 Blueberry Tart (16), Apricot Croissant (32) support- 0.04 
7 Blueberry Tart (16), Hot Coffee (45) support- 0.033 
8 Gongolais Cookie (22), Truffle Cake (5) support- 0.058 
9. i Cherry Tart (18), Opera Cake (3) support- 0.041 
10 Cheese Croissant (33), Orange Juice (42) support- 0.038 
11 Raspberry Cookie (23), Lemon Cookie (24) support- 0.033 
12 Lemon Cookie (24), Lemon Lemonade (40) support- 0.031 
13 Apricot Croissant (32), Hot Coffee (45), Blueberry Tart (16) 
support- 0.032 
14 Apple Croissant (31), Apple Tart (12), Apple Danish (36), 
Cherry Soda (48) support- 0.031 
Skyline Itemsets: 14 
Rule 1 : Apricot Croissant (32), Hot Coffee (45) --» Blue 
berry Tart (16) [sup- 0.032 conf£- 1.0 ] 
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Rule 2 : Apple Croissant (31), Apple Tart (12), Apple Danish (36) 
--» Cherry Soda (48) [sup- 0.031 confs 0.775 ] 

Rule 3 : Apple Croissant (31), Apple Danish (36), Cherry Soda (48) 
--» Apple Tart (12) [sup- 0.031 gots 1.9 ] 

Rule 4 : Apple Tart (12), Apple Danish (36), Cherry Soda (48) 
--» Apple Croissant (31) [Süps 0.031 confz 1.40 ] 


程序 的 上 半 部 分 为 频繁 项 集 ， 下 半 部 分 为 关联 规则 。 

首先 ， 观 察 这 14 个 频繁 项 集 ， 第 1 个 频繁 项 集 表 明 ID 号 为 14 的 Berry Tart 经 常 和 ID 
号 为 44 的 Bottled Water 被 顾客 一 起 购买 (有 0.034 的 支持 度 )， 而 拥有 最 大 支持 度 的 是 第 8 
个 频繁 项 集 ， 即 : Gongolais Cookie 和 Truffle Cake 是 顾客 相对 其 他 食品 组 合 而 言 最 喜欢 一 起 
购买 的 。 

然后 ， 观 察 关联 规则 ， 第 1 条 关联 规则 是 点 了 Apricot Croissant 和 Hot Coffee 的 顾客 一 
般 会 来 上 一 个 Blue berry Tart， 这 条 关联 规则 的 置信 度 为 1.0， 说 明 顾客 常 有 该 规则 表明 的 
消费 习惯 。 而 置信 度 最 小 (为 77.5%) 的 是 第 2 条 规则 ， 点 Apple Croissant, Apple Tart 及 
Apple Danish 的 顾客 会 选择 Cherry Soda， 这 个 消费 习惯 可 能 会 成 为 这 部 分 顾客 的 选择 。 


2. FP-growth 算法 

首先 ， 下 载 FP-growth 程序 包 并 解压 ， 本 书 源码 包 中 提供 有 该 程序 包 ， 也 可 以 直接 在 
github.com 下 载 : https://github.com/enaeseth/python-fp-growth。 该 算法 包 需 要 安装 ， 安 装 命 
SWF: 


python setup.py install 


然后 ， 可 直接 运行 程序 印 _ growth， 该 程序 将 自动 分 析 其 中 的 一 个 简单 的 数据 集 tsk.csv， 
生成 频繁 项 集 。 

tsk 数据 集中 的 数据 如 表 8-3 所 示 。 EO MUN 

运行 程序 的 命令 如 下 : 

python -m fp growth -s 4 examples/tsk.csv 


程序 运行 完毕 后 ， 输 出 支持 数 support > 4 的 频 
繁 项 集 ， 结 果 如 下 : 





{a} 8 
(e) 6 
fa; e 4 
fb, ecl 5 
fb) 7 
(a, b) 5 
td 5 
fa, d) 4 


fp growth 程序 的 调用 格式 如 下 : 


python -m fp_growth -s {minimum support} {path to CSV file} 
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其 中 ，minimum support 为 最 小 支持 度 ，path to CSV file 为 数据 集 的 csv 文件 名 。 

最 后 ， 以 某 网 上 商场 的 购买 数据 sales.csv ( 共 1000 条 记录 ， 本 书 附带 的 源码 包 中 提供 了 
该 文件 ) 为 例 ， 计 算 支持 数 (支持 数量 ) > 200 的 频繁 项 集 。sales.csv 文件 共有 1000 条 记录 ， 
记载 了 每 笔 订单 的 商品 ID 号， 内 容 如 下 所 示 。 


25,5,27,29 
15,27,31,33 
9,16,22, 
12,14,16, 
2,9,44, 
9,26,39, 
10,3L.r 
1,47,49, 
12,24,16, 
12,14,16, 
1,19,25,49 
15,23,36, 
15,17;36;, 
15,18,36,37 
1,46,48,49 
1,49,, 
12,14,16, 
9,225251 
12,14,15,16 
2,24,47, 
9,22,23, 
3,15,21,47 
21,32,41,48 


编写 程序 8-23.py， 调 用 fp growth 程序 库 函 数 ， 代 码 如 下 : 


4 =*=- coding: utf-8 -*- 
d$code:myhasplemyhaspl.corm 

#8-23 .py 

from fp growth import find frequent itemsets 
import csv 

myminsup-2004$ 设 定 最 小 支持 度 


if | name  -- ' main  ': 
f - open("sales.csv") 
try: 
for itemset, support in find frequent itemsets(csv.reader(f), myminsup, True): 
print '(' + ','.join(itemset) + ') * 4 str(support) 
finally: 
f.close() 
运行 程序 ， 输 出 支持 数 三 200 的 频繁 项 集 ， 结 果 如 下 所 示 : 
(9) 224 
(12) 300 
(14) 291 
(12,14) 266 
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(22) 203 
(16) 274 
(12,185) 250 
(14,16) 249 
(12,14,16) 248 
分 析 上 面 的 频繁 项 集 ，{12}300 在 1 项 组 合 中 的 支持 数 最 多 ， 表 示 很 多 顾客 都 喜欢 购买 
12 号 商品 ; {12,14}266 在 2 项 组 合 中 的 支持 数 最 多 ， 表 示 12 和 14 号 商品 是 较 常 见 的 2 项 购 
买 组 合 ，{12,14,16}248 在 3 项 组 合 中 的 支持 数 最 多 ， 表 示 12、14 和 16 号 商品 是 较 常见 的 3 
项 购买 组 合 。 
程序 8-23.py 读 取 的 sales.csv 文件 格式 与 在 github.com 下 载 的 fp growth 算法 包 所 使 用 
的 CSV 文件 格式 有 所 不 同 ， 因 此 ， 需 要 修改 一 下 源码 包 中 的 印 _growth.py， 使 之 兼容 sales. 
csv 和 tsk.csv 这 两 种 文件 的 格式 。 修 改 方式 为 : TE fp growth.py 文件 的 find frequent itemsets 
函数 中 增加 对 空 项 目的 判断 ， 代 码 如 下 所 示 : 
for transaction in transactions: 
processed = [] 
for item in transaction: 
if item.strip()!-'': 
items[item] += 1 


processed.append(item) 
processed transactions.append (processed) 


修改 完毕 后 ， 需 要 重新 安装 fp growth 包 ， 安 装 命令 如 下 : 


python setup.py install 


89 上 自动 分 类 


自动 分 类 是 指 由 计算 机 系统 按照 被 考察 对 象 的 内 部 或 外 部 特征 ， 根 据 一 定 的 分 类 标准 或 
分 类 参考 (如 类 别 的 数量 限制 ， 同 类 对 象 的 亲近 程度 等 )， 将 相近 、 相 似 或 相同 特征 的 对 象 聚 
合 在 一 起 或 划分 到 不 同 种 类 的 过 程 。 


8.9.1 聚 类 算法 


聚 类 分 析 又 称 群 分 析 ， 它 是 研究 〈 样 品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方 法 ， 同 时 也 
是 数据 挖掘 的 一 个 重要 算法 。 它 以 相似 性 为 基础 ， 相 比 于 不 同 聚 类 的 模式 ， 同 一 聚 类 中 的 模 
式 之 间 具 有 更 多 的 相似 性 ， 聚 类 所 要 求 划 分 的 类 是 未 知 的 。 聚 类 算法 应 用 相当 广泛 ， 已 经 被 
广泛 用 于 考古 学 、 地 质 勘 探 调查 、 天 气 预报 、 作 物品 种 分 类 、 土 壤 分 类 、 微 生物 分 类 、 经 济 
管理 、 社 会 经 济 统计 等 应 用 中 。 通 俗 地 说 ， 聚 类 就 是 把 相似 的 对 象 通过 静态 分 类 的 方法 分 成 
不 同 的 组 别 或 更 多 的 子 集 ， 让 在 同一 个 子 集中 的 成 员 对 象 都 有 一 些 相似 的 属性 。 


1. 系统 聚 类 
系统 聚 类 法 分 析 的 对 象 是 大 量 的 样本 ， 可 合理 地 对 所 有 样品 进行 分 类 ， 同 时 没有 任何 模 
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式 可 供 参 考 或 依循 ， 是 在 没有 先 验 知识 的 情况 下 进行 的 。 系 统 聚 类 法 的 原理 是 : 同类 事物 具 
有 很 强 的 相似 性 ， 即 同类 事物 之 间 的 距离 应 该 很 小 ， 可 用 距离 统计 量 作为 分 类 依据 。 具 体 算 
法 思想 如 下 : 
首先 假定 各 个 样本 各 自 成 一 类 ， 这 时 各 类 间 的 距离 就 是 各 样品 之 间 的 距离 ， 将 距离 最 
近 的 两 类 合并 成 一 个 新 的 类 ; 然后 计算 新 类 与 其 他 类 间 的 距离 ， 并 将 距离 最 近 的 两 类 合并 ， 
如 此 每 次 缩小 一 类 ， 直 至 所 有 的 样本 都 成 为 一 类 为 止 ; 最 后 根据 需要 或 根据 给 出 的 距离 临界 
值 CX BI (EL) 确定 分 类 数 及 最 终 要 分 的 类 。 其 中 的 关键 是 距离 计算 ， 可 采用 如 下 距离 函数 来 
计算 : 
口 最 短 距 离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 最 近 样 本 间 的 距离 。 
口 最 长 距离 法 ， 定义 类 与 类 之 间 的 距离 为 两 类 最 远 样本 间 的 距离 。 
口 中 间距 离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 中 间 样 本 间 的 距离 。 
口 类 平均 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 样本 对 之 间 的 平均 距离 或 两 类 样本 对 之 间 平 
均 距 离 的 平均 值 。 
口 Mcquitty 相似 法 ， 与 类 平均 法 类 似 ， 但 在 类 平均 法 的 基础 上 增加 了 加 权 方 法 。 
口 重心 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 重心 (平均 值 ) 之 间 的 距离 。 
口 离 差 平 方 和 法 ， 如 果 分 类 正确 ， 同 类 样本 之 间 的 离 差 平 方 和 应 较 小 ， 不 同样 本 之 间 的 
离 差 平方 和 应 较 大 。 
下 面 以 某 类 型 的 13 种 商品 的 平均 月 销量 为 例 ， 按 销售 数量 分 级 聚 类 。 销 售 数 量 如 表 8-4 
所 示 。 


表 8-4 某 类 型 商品 的 销售 数量 
To 7 | 9 mf mT 
[sw ol xe| uu | s | ||| 20] 2| 0] 55] 


可 使 用 R 语言 的 hclust 函数 进行 聚 类 ，R 语言 代码 如 下 : 
buy<-c(500,600,200,12,38,59,482,295,260,279,410,552, 677) 


dim(buy)«-c(13,1) 
buy 
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Psy:, 677 

> d<-dist (buy) 

# 最 短 距离 法 

> hclust(d,"single")-»dshort 

# 最 长 距离 法 

> hclust (d, "complete")-»dlong 

# 中 间距 离 法 

> hclust (d, "median")-»dmedian 
iMcquitty 相似 法 

> hclust (d, "mcquitty")-»dmcquitty 


# 类 平均 法 

> hclust (d,"average")-»daverage 

# 重心 法 

> hclust (d, "Centroid")-»dcentroid 
# 离 差 平方 和 法 


> hclust (d, "ward.D")-»dward 
画 聚 类 树 形 图 (谱系 图 ) 

plot (dshort,hang--1) 

plot (dlong,hang--1) 

plot (dmedian,hang--1) 
plot (dmcquitty,hang--1) 
plot (daverage,hang--1) 
plot (dcentroid,hang--1) 
plot (dward,hang--1) 


上 述 代 码 的 最 后 是 用 plot 函数 绘制 所 有 聚 类 的 谱系 图 ， 如 图 8-46 至 图 8-52 所 示 。 
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hclust(*,"single") hclust(*,"complete") 
图 8-46 最短 距 离 法 图 8-47 最 长 距离 法 


分 析 图 8-52 所 示 的 谱系 图 ， 以 离 差 平 方 和 法 为 例 ， 观 察 聚 类 分 析 的 结果 : 按 这 13 种 商 
品 的 平均 月 销量 进行 聚 类 ，1、7、11 号 商品 归 为 一 组 ， 而 12、2、13 号 商品 为 一 组 ，4、5、 
6 号 商品 可 归 为 一 组 ，3、8、9、10 号 商品 可 归 为 一 组 。 
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Cluster Dendrogram Cluster Dendrogram 
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hclust(*,"median") hclust(*,"mcquitty") 
图 8-48 ”中 间距 离 法 图 8-49 ”Mcquitty 相似 法 
Cluster Dendrogram Cluster Dendrogram 
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hclust(*,"average") hclust(*,"centroid") 
图 8-50 ”类 平均 法 图 8-51 重心 法 


再 来 看 一 个 例子 ， 假 设 某 游戏 公司 打算 针对 某 游戏 服务 器 内 1 级 到 70 级 之 间 的 玩家 按 
对 某 些 VIP 特殊 虚拟 商品 的 消费 能 力 进行 聚 类 ， 分 别 有 以 下 4 个 指标 。 

口 x1: 外 部 时 装 

0x2: 防具 、 武 器 、 饰 品 及 相关 加 强 配料 

口 x3: 宠物 及 相关 加 强 配 件 

0x4: 交通 工具 

然后 ， 将 每 10 级 玩家 设 定 为 一 个 等 级 区 (共有 7 级 )， 随 机 抽取 若干 个 该 等 级 区 内 的 典 
型 玩家 样本 ,计算 在 该 等 级 区 内 平均 每 人 每 月 消费 的 金额 (游戏 币 ) 作为 指标 ， 生 成 以 下 数 
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据 样 本 ， 如 表 8-5 所 示 。 


Height 


另 一 


1000 1500 


500 


Cluster Dendrogram 





表 8-5 VIP 特殊 虚拟 商品 的 消费 











mA 
一 一 一 


d 
hclust(*,"ward.D") 


图 8-52 ” 离 差 平方 和 法 








下 面 用 类 平均 法 进行 系统 聚 类 分 析 ，R 语言 代码 如 下 : 


二 十 十 十 十 


从 图 8-53 可 以 看 出 ， 在 此 类 虚拟 商品 消费 
能 力 方面 ，1 ~ 50 级 是 一 大 组 ， 其 中 1 ~ 20 级 
玩家 消费 能 力 类 似 ， 可 归 为 一 组 ; 51 ~ 70 级 是 
大 组 ， 玩 家 以 50 级 为 一 个 明显 的 界限 。 
2. K 均值 算法 

(1 ) K 均值 算法 概述 

系统 聚 类 法 一 次 成 型 以 后 就 不 能 再 改变 ， 


VOVO e a 


> gamebuy<-data.frame ( 


x1«-c(10,20,50,700,180,200,1000), 

x2«-c(300,400,600,1200,1500,3000,4000), 

x3«-c(10,20,500,300,300,900,1200), 

x4«-c(20,20,82,320,1000,120,400)^4 , 

row.names=c ("1 等 级 玩家 ","2 等 级 玩家 " "3 等 级 玩家 "，,"4 等 级 玩家 " "5 等 级 玩家 "，"6 等 级 玩 


等 级 玩家 

) 

dist(scale(gamebuy))-»d 

hclust (d, "average")-»daverage 

plot(daverage,hang--1) Cluster Dendrogram 





Height 
0.0 0.5 LO L5 2.0 2:5 3.0 


计算 量 较 大 ,而 K 均值 (K-means) 算法 属于 K NS S kh X X k 
动态 聚 类 法 ， 具 有 计算 量 较 小 、 占 计算 机 内 
存 较 少 和 方法 简单 的 优点 。K 均值 算法 是 很 0 
典型 的 基于 距离 的 聚 类 算法 ,采用 距离 作为 hclust(*,"average") 
相似 性 的 评价 指标 ， 即 认为 两 个 对 象 的 距离 图 8-53 ”类 平均 法 
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越 近 ， 其 相似 度 就 越 大 。 该 算法 认为 簇 是 由 距离 较 近 的 对 象 组 成 的 ， 因 此 将 获得 紧凑 且 独 立 
的 簇 作为 最 终 目标 。 

K 均值 算法 会 将 个 对 象 根据 它们 的 属性 分 为 个 分 割 ，k<n， 试 图 找到 数据 中 自然 聚 
类 的 中 心 ， 使 各 个 样本 与 所 在 类 均值 的 误差 平方 和 达到 最 小 ， 并 以 此 为 标准 评价 K 均值 算法 
最 后 的 俊 类 效果 。k 个 初始 类 聚 类 中 心 点 的 选取 对 聚 类 结果 具有 和 较 大 的 影响 ， 因 为 该 算法 的 
第 一 步 是 随机 地 选取 任意 大 个 对 象 作为 初始 聚 类 的 中 心 ， 初 始 地 代表 一 个 簇 。 该 算法 在 每 次 
迭代 中 都 会 对 数据 集中 剩余 的 每 个 对 象 根 据 其 与 各 个 簇 中 心 的 距离 将 其 重新 赋 给 最 近 的 篮 。 
当 考 察 完 所 有 数据 对 象 后 ， 一 次 迭代 运算 完成 ， 新 的 聚 类 中 心 被 计算 出 来 。 如 果 在 一 次 迭代 
前 后 , J 的 值 没 有 发 生变 化 ， 说 明 算 法 已 经 收敛 。 

K 均值 算法 的 具体 过 程 如 下 : 

1) 从 友 个 数据 对 象 中 任意 选择 上 个 对 象 作为 初始 聚 类 的 中 心 。 

2) 根据 每 个 聚 类 对 象 的 均值 (中心 对 象 )， 计 算 每 个 对 象 与 这 些 中 心 对 象 的 距离 ; 并 根 
据 最 小 距离 重新 对 相应 的 对 象 进行 划分 。 

3) 重新 计算 每 个 (有 变化 ) 聚 类 的 均值 (中心 对 象 )。 

4) 循环 步骤 2 和 步骤 3 直到 每 个 聚 类 不 再 发 生变 化 为 止 。 

K 均值 算法 接受 输入 量 丰 ; 然后 将 n 个 数据 对 象 划 分 为 个 聚 类 ， 以 便 使 得 所 获得 的 至 
类 满足 : 同一 聚 类 中 对 象 的 相似 度 较 高 ; 而 不 同 聚 类 中 对 象 的 相似 度 较 小 。 聚 类 相似 度 是 利 
用 各 至 类 中 对 象 的 均值 获得 一 个 中 心 对 象 来 进行 计算 的 。 

(2) R 语言 的 kmeans 聚 类 

下 面 针 对 表 8-5 所 示 的 虚拟 商品 数据 ， 调 用 R 语言 的 kmeans 函数 进行 聚 类 : 

> kmeans(scale(gamebuy),3)-»mykmean 


> mykmean 
K-means clustering with 3 clusters of sizes 3, 2, 2 


Cluster means: 
€1....0.10,.20..50..700..180..200..1008. 


1 -0.7283260 

2 0.7529316 

3 0.3395574 
x2....c.300..400..600..1200..1500..3000..4000. 

1 -0.8042763 

2 1.3628949 

3 -0.1564805 
X3....C.10..20..500..300..300..900..1200. 

1 -0.6393938 

2 1.3215563 

3 -0.3624657 
Xd 70,20. .20.2924,.320:41000.4. 120. 400. 

i -0.68490386 

2 -0.05798272 

3 1.08533851 


Clustering vector: 
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1 等 级 玩家 2 等 级 玩家 3 等 级 玩家 4 等 级 玩家 5 等 级 玩家 6 等 级 玩家 7 等 级 玩家 
1 1 i 3 3 2 2 


Within cluster sum of squares by cluster: 
[1] 0.8408947 2.9328150 2.8138040 
(between SS / total SS = 72.6 %) 


Available components: 


[1] "cluster" "centers" "totss" "withinss" 

[5] "tot.withinss" "betweenss" "Size" "iter" 

[9] "j-fault"* 

» sort (mykmean$cluster) 

1 等 级 玩家 2 等 级 玩家 3 等 级 玩家 6 等 级 玩家 7 等 级 玩家 4 等 级 玩家 5 等 级 玩家 

£ 4 1 2 2 3 3 

从 以 上 分 析 结 果 可 以 看 出 ，1、2、3 等 级 (1 ~ 30 级) 玩家 是 一 组 , 4、5 等 级 (31 ~ 50 
级 ) 玩家 是 一 组 ，6、7 等 级 (51 ~ 70 级 ) 玩家 是 一 组 。 

(3) Python 库 milk 的 kmeans 聚 类 

再 来 看 一 个 例子 ， 某 网 站 对 用 户 随 机 抽样 ， 以 抽取 用 户 每 周 登 录 的 次 数 作为 用 户 对 本 网 
站 热忱 程度 的 分 类 标准 ， 共 随机 抽取 了 6 位 用 户 ， 登 录 次 数 分 别 为 : 12. 24, 67, 90, 34, 
120， 在 此 使 用 Python 来 完成 这 个 任务 ， 通 过 调用 milk 库 函 数 实现 K-means 分 类 ， 代 码 如 下 : 


# 样本 矩阵 声明 

>>myx= np.array([12,24,67,90,34,120]) 

>>myx.shape=(6,1) 

# 建立 k-means 分 类 器 ， 第 三 个 参数 3 表示 分 成 3 类 。 

>>learner -milk.kmeans (myx,3) 

>>learner 

(arrayt ll Ti Ze 0, 1, 0]); array ti 105; ]; L 23,.33333333], [ $7. 11)) 


最 后 一 行程 序 返 回 了 两 个 结果 ， 第 1 个 结果 是 分 类 完成 后 样本 所 属 的 类 别 ， 第 2 个 结果 
是 每 个 类 别 的 重心 ， 观 察 结 果 可 发 现 ， 第 1、2、5 号 用 户 属于 一 类 ， 重 心 为 105 ; 而 3 号 用 
户 属于 第 2 类， 重心 为 23.33333333; 4、6 号 用 户 属于 第 3 类 ， 重 心 为 67。 

milk 是 一 种 可 供 Python 调用 的 机 器 学 习 工 具 包 。 在 Linux 环境 中 ， 需 要 首先 下 载 milk， 
网 址 如 下 : 

https://pypi.python.org/pypi/milk/ 

下 载 完 毕 后 ， 解 压 并 进行 安装 ， 安 装 命令 如 下 : 

python setup.py install 

在 Windows 环境 中 ， 可 直接 下 载 安 装 包 进 行 安 装 ， 下 载 时 请 选择 与 Python 版 本 对 应 的 
文件 。 下 载 地 址 如 下 : 

http://www.lfd.uci.edu/-gohlke/pythonlibs/Zmilk 

此 外 ， 有 关 milk 的 相关 文档 和 资料 可 在 http://luispedro.org/software/milk 中 找到 。 

( 4) Python 库 mlpy 的 kmeans 聚 类 

以 下 代码 (程序 8-24.py) 调用 mlpy FER kmeans 函数 对 若干 个 随机 数 进行 聚 类 ， 并 生成 
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效果 图 (如 图 8-54 所 示 )。 


#8-24 .py 

import numpy as np 

import matplotlib.pyplot as plt 

import mlpy 

np.random.seed(0) 

meani, cavi, nil s [1, 5]; [[i,11,[1,2]], 2090 4 200 points, mean-(1,5) 

x1 = np.random.multivariate normal(meanl, covl, n1) ` 

mean2, cov2, n2 = [2.5, 2.5], [[1,0],[0,1]], 300 # 300 points, mean-(2.5,2.5) 
x2 - np.random.multivariate normal(mean2, cov2, n2) 


mean3, cov3, n3 = [5, 8], [[0.5,0]1,[0,0.5]], 200  # 200 points, mean-(5,8) 
x3 - np.random.multivariate normal(mean3, cov3, n3) 
x - np.concatenate((x1, x2, x3), axis-0) # concatenate the samples 


cls, means, steps - mlpy.kmeans(x, k-3, plus-True) 
fig - plt.figure(1) 
ploti = plit.scatter(x[:;0], x[:;1], cels; alphaz0ü.75) 


plot2 = plt.scatter(means[:,0], means[:,1], c-snp.unique(cls), s-128, 
marker-'d') # plot the means 
plt.show() 











图 8-54 kmeans 聚 类 效果 图 


8.9.2 决策 树 


1. 决策 树 概述 
决策 树 是 一 个 预测 模型 ， 代 表 了 对 象 属性 与 对 象 值 之 间 的 一 种 映射 关系 。 树 中 的 每 个 节 
点 表示 某 个 对 象 ， 而 每 个 分 又 路 径 则 代表 某 个 可 能 的 属性 值 ， 每 个 叶 节点 则 对 应 从 根 节点 到 
该 叶 节点 的 路 径 所 表示 的 对 象 的 值 。 决 策 树 仅 有 单一 输出 ， 若 欲 有 复数 输出 ， 则 可 以 建立 独 
立 的 决策 树 以 处 理 不 同 的 输出 。 在 数据 挖掘 中 决策 树 是 一 种 经 常 要 用 到 的 技术 ， 可 用 于 分 析 
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数据 ， 同 样 也 可 用 来 预测 。 图 8-55 展示 了 一 个 决策 树 。 


100% 
$0.00 





0% 
$0.00 


0% 4 
- $0.00 





FALSE q 0% 
$0.00 $0.00 
图 8-55 ”决策 树 


通常 来 说 ， 决 策 树 包含 以 下 三 种 类 型 的 节点 。 

口 决策 节点 : 通常 用 矩形 框 来 表示 。 

口 机 会 节点 : 通常 用 圆圈 来 表示 。 

口 终 节 点 : 通常 用 三 角形 来 表示 。 

前 枝 是 决策 树 停止 分 支 的 方法 之 一 ， 剪 校 又 分 预先 剪 枝 和 后 剪 校 两 种 。 预 先 剪 校 是 在 
树 的 生长 过 程 中 设 定 一 个 指标 ， 当 达到 该 指标 时 就 停止 生长 ， 这 样 做 容易 产生 “视界 局 限 ”， 
也 就 是 说 一 旦 停止 分 支 ， 使 得 节点 N 成 为 叶 节 点 ， 就 断绝 了 其 后 继 节点 进行 “好 ”的 分 支 操 
作 的 任何 可 能 性 。 不 严格 地 说 ， 这 些 已 停止 的 分 支 会 误导 学 习 算法 ， 导 致 产生 的 树 的 不 纯度 
降 差 最 大 的 地 方 过 分 靠近 根 节点 。 后 剪 枝 中 ， 树 首先 要 充分 生长 ， 直 到 叶 节点 都 有 最 小 的 不 
纯度 值 为 止 ， 这 样 可 以 避免 “视界 局 限 ” 的 问题 。 然 后 对 所 有 相 邻 的 成 对 叶 节点 考虑 是 否 消 
去 它们 ， 如 果 消 去 能 引起 令 人 满意 的 不 纯度 增长 ， 那 么 执行 消去 ， 并 令 它们 的 公共 父 节点 成 
为 新 的 叶 节点 。 

决策 树 法 的 决策 算法 如 下 : 

1) 绘制 树 状 图 ， 根 据 已 知 条 件 排列 出 各 个 方案 和 每 一 方案 的 各 种 自然 状态 。 

2 ) 将 各 状态 的 概率 及 损益 值 标 于 概率 枝 上 。 

3) 计算 各 个 方案 的 期 望 值 并 将 其 标 于 与 该 方案 对 应 的 状态 节点 上 。 

4) 进行 剪 枝 ， 比 较 各 个 方案 的 期 望 值 ， 并 标 于 方案 枝 上 ， 将 最 后 所 剩 的 期 望 值 小 的 〈 即 
劣 等 方案 剪 掉 ) 方案 作为 最 佳 方案 。 

2. 决策 树 算法 实例 

下 面 以 实例 来 说 明 决 策 树 算 法 ， 首 先 从 最 简单 的 1 个 属性 的 数据 开始 。 假 设 某 游戏 公司 
在 其 官网 的 某 游戏 论坛 中 随机 抽取 了 6 位 用 户 的 资料 为 样本 ， 以 玩家 平均 每 月 所 发 游戏 截图 
的 数量 为 特征 ， 进 行 决 策 树 训练 ， 训 练 好 的 决策 树 模 型 可 将 其 他 玩家 分 为 热心 玩家 和 非 热 心 
玩家 。 这 6 位 用 户 平均 每 月 所 发 游戏 截图 的 数量 为 : 12. 24, 67. 90, 34, 120. 

首先 ， 训 练 决 策 树 ，Python 代码 如 下 : 

>>features = np.array([12,24,67,90,34,120]) # 样本 矩阵 数据 建立 

>>features.shape=(6,1) 


>>labels=np.array ([False,False,False,True,False,True]) # 样 本 标签 False 为 非 热 心 玩 
家 ，True 为 热心 玩家 。 
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»»learner-milk.supervised.tree learner() # 建立 决策 树 分 类 器 

»»model-learner.train(features, labels) # 样本 数据 训练 ， 返 回 分 类 器 模型 

然后 ， 对 其 他 8 位 玩家 的 数据 进行 分 类 ，Python 代码 如 下 : 

»»testx-np.array([10,20,40,90,33,89,199,200]) ””# 建 立 测试 样本 数据 ， 即 测试 玩家 
所 发 游戏 截图 的 数量 

»»testx.shape-(8,1) 

»»» model.apply([50]) # 应 用 刚才 建立 的 决策 树 分 类 模型 ， 对 某 个 测试 样本 进行 分 类 

False 

»» model.apply many (testx) # 应 用 刚才 建立 的 决策 树 分 类 模型 ， 对 成 批 测 试 样本 进行 分 类 


[False, False, False, True, False, False, True, True] 

观察 最 后 两 行程 序 代 码 的 返回 结果 ， 倒 数 第 二 行 的 程序 代码 对 50 进行 了 测试 ， 通 过 决 
策 树 模型 判别 ， 发 游戏 截图 50 次 的 用 户 为 非 热 心 玩家 ， 倒 数 第 一 行程 序 代 码 对 一 批 测试 样 
本 进行 判断 ， 其 中 发 游戏 截图 为 90 199, 200 次 的 玩家 值 返回 为 True， 表 示 这 些 用 户 为 热 
心 玩家 。 

接 下 来 ,看 一 个 较 复杂 的 例子 。 假 设 某 公司 
针对 其 肉 账 客户 进行 分 类 ， 通 过 随机 抽取 7 QR 
账 客户 进行 评估 ， 之 后 将 其 分 成 可 容忍 客户 和 非 
容忍 客户 ， 并 以 这 些 客户 为 样本 数据 ， 尝 试 对 更 
多 的 肉 账 客户 进行 决策 树 分 类 。7 LITE TE P B] 
数据 如 表 8-6 所 示 。 

应 用 Python 对 以 上 数据 进行 决策 树 算法 分 
类 ， 代 码 如 下 所 示 : 


-- 
x-np.arr ay([[5600,58000,1300,2900,800,35000,9800],[4,6,1,3,2,4,2],[50,120,8,12, 
5,190,10]]) t 建立 样本 数据 


>> features=x.T 


表 8-6 ”内 账 客户 的 数据 





>> features 


array ([[ 5600, 4, 50], 
[58000, 6, 120] 
[ 1300, ds 8] ; 
[ 3900, 3 12] 
[ 800, 2, B]. 
[35000, 4, 190] 
[ 9800, du 1011) 
# 建立 决策 树 模型 


>> learner-milk.supervised.tree learner() 

»» model-learner.train(features, labels) 

# 对 到 目前 为 止 仍 欠 款 1200， 欠 款 笔 数 为 3， 到 目前 为 止 累计 拖欠 13 天 的 客户 进行 判断 ， 确 定 其 是 否 属于 
可 容忍 客户 ， 经 决策 树 模 型 分 析 ， 可 以 容忍 。 

>> model.apply([1200,3,13]) 

True 

# 对 到 目前 为 止 仍 欠 款 12000， 欠 款 笔 数 为 13， 到 目前 为 止 累 计 拖 欠 103 天 的 客户 进行 判断 ， 确 定 其 是 否 属 
于 可 容 丸 客 户 ， 经 决策 树 模型 分 析 ， 不 能 容 丸 。 

>> model.apply([12000,13,103]) 

False 
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8.9.3 AdaBoost 


AdaBoost 分 类 算法 是 一 种 迭代 分 类 算法 ， 它 会 在 每 一 轮 中 加 入 一 个 新 的 弱 分 类 器 ， 直 到 
达到 某 个 预定 的 足够 小 的 错误 率 为 止 。 每 一 个 训练 样本 都 被 赋予 一 个 权重 ， 表 明 它 被 某 个 分 
类 器 选 入 训练 集 的 概率 。 如 果 某 个 样本 点 已 经 被 准确 地 分 类 ， 那 么 在 构造 下 一 个 训练 集中 ， 
它 被 选中 的 概率 就 会 被 降低 ; 相反 ， 如 果 某 个 样本 点 没有 被 准确 地 分 类 ， 那 么 它 的 权重 就 得 
到 了 提高 。 通 过 这 种 方式 ，AdaBoost 方 法 能 聚焦 于 那些 较 难 分 (更 富 信息 ) 的 样本 上 。 该 算 
法 的 核心 思想 如 下 : 

最 初 令 每 个 样本 的 权重 都 相等 ， 对 于 第 k 次 迭代 操作 ， 我 们 就 根据 这 些 权 重 来 选取 样本 
点 ， 进 而 训练 分 类 器 Ck ; 然后 就 根据 这 个 分 类 器 ,来 提高 被 它 分 错 的 样本 的 权重 ,并 降低 被 
正确 分 类 的 样本 的 权重 ; 最 后 ， 更 新 过 权重 的 样本 集 被 用 于 训练 下 一 个 分 类 器 Cea。 整 个 训 
练 过 程 如 此 和 迭代 地 进行 下 去 。 

AdaBoost 算法 的 具体 过 程 如 下 : 

1) 先 通过 对 N 个 训练 样本 的 学 习 得 到 第 一 个 弱 分 类 器 。 

2) 将 分 错 的 样本 和 其 他 的 新 数据 一 起 构成 一 个 新 的 N 个 的 训练 样本 ， 通 过 对 这 个 样本 
的 学 习 得 到 第 二 个 弱 分 类 器 。 

3) 将 步骤 1 和 2 中 分 错 了 的 样本 加 上 其 他 的 新 样本 构成 另 一 个 新 的 N 个 的 训练 样本 ， 
通过 对 这 个 样本 的 学 习 得 到 第 三 个 弱 分 类 器 。 

4) 如 此 和 迭代， 最 终 经 过 提升 得 到 强 分 类 器 。 

继续 以 上 一 节 的 肉 账 客户 为 例 进行 说 明 ， 假设 该 公司 随机 抽取 7 位 内 账 客户 进行 评估 ， 
之 后 按 信用 等 级 对 其 进行 分 类 ( 共 分 为 3 级，1 级 信用 等 级 最 差 ，3 级 信用 等 级 最 好 ) 并 以 这 
些 客户 为 样本 数据 ， 尝 试 对 更 多 的 内 账 客户 进行 AdaBoost 算法 分 类 。7 位 内 账 客户 的 数据 如 
表 8-7 所 示 。 


表 8-7 REFARIS 


到 目前 为 止 仍 欠 款 











首先 ， 建 立 分 类 带 ，Python 代码 如 下 : 
# 导入 相关 库 


>> import milk.supervised.tree 

>> import milk.supervised.adaboost 
»» import milk.supervised.multi 

# 建立 分 类 器 


>> weak = milk.supervised.tree.stump learner() 
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>> learner 
>> learner 
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= milk.supervised.adaboost.boost learner (weak) 
- milk.supervised.multi.one against, one(learner) 


# 样本 数据 及 样本 分 类 


2 


x-np.array([[5600,58000,1300,2900,800,35000,9800],[4,6,1,3,2,4,21,[50,120,8, 


12,5,190,1011) 


>> features-x.T 
»» labels-np.array([2,1,3,2,3,1,2]) 
»» learner.train(features,labels) 


然后 ， 对 测试 样本 进行 预测 ， 返 回信 用 等 级 ， 测 试 数 据 的 第 一 个 元 素 是 到 目前 为 止 仍 从 
款 ， 第 二 个 元 素 是 欠 款 笔 数 ， 第 三 个 元 素 是 到 目前 为 止 累 计 拖 从 天 数 。 


>>> 
3 
>>> 
2 
>>> 
2 
=>> 
2 
>>> 
1 
2 
1 
>>> 
2 
> > 
2 
>>> 
2 
>>> 


2 


model. 


model 


model 


model 


model 


model 


model 


model 


model 


model. 


apply([1000,3,10]) 


.apply([10000,3,10]) 


.apply([10000,5,10]) 


.apply([10000,5,100]) 


-apply([50000,5,100]) 


.apply([50000,5,10]) 


.apply([5000,15,100]) 


.apply([5000,15,100]) 


.apply([28000,15,100]) 


apply([38000,15,10]) 


分 析 以 上 结果 ， 以 model.apply([38000,15,10]) 为 例 ， 返 回 1 表示 目前 为 止 仍 欠 款 38 000, 
欠 款 笔 数 15 次 ， 目 前 为 止 累计 拖欠 10 天 的 信用 等 级 为 1 级 ， 信 用 等 级 最 差 。 


8.9.4 ”竞争 型 神经 网 络 

神经 生物 学 的 研究 结果 表明 : 生物 视网膜 有 许多 特定 的 细胞 ， 对 特定 的 图 形 输入 模式 比 
较 敏 感 ， 并 使 得 大 脑 皮层 中 的 特定 细胞 产生 较 大 的 兴奋 ， 而 与 其 相 邻 的 神经 细胞 的 兴奋 程度 
则 被 抑制 。 竞 争 型 神经 网 络 对 此 进行 了 模拟 ， 对 于 某 一 个 输入 模式 ， 通 过 竞争 在 输出 层 中 只 
激活 一 个 相应 的 输出 神经 元 ; 车 有 许多 输入 模式 ， 则 在 输出 层 中 激活 许多 个 神经 元 ， 从 而 形 
成 一 个 反映 输入 数据 的 “特征 图 形 ”， 可 实现 对 输入 模式 自动 进行 分 类 。 

竞争 型 神经 网 络 一 般 是 由 输入 层 (模拟 视网膜 神经 元 ) 和 竞争 层 (模拟 大 脑 皮层 神经 元 ， 
也 叫 输出 层 ) 构成 的 两 层 网 络 ， 两 层 中 的 各 神经 元 之 间 实 现 双 向 全 连接 ， 而 且 网 络 中 没有 隐 
含 层 ， 有 了 时 竞争 层 各 神经 元 之 间 还 存在 横向 连接 ， 对 于 某 一 输入 模式 ， 在 竞争 型 神经 网 络 
中 ， 和 该 模式 最 相近 的 学 习 输 入 模式 相对 应 的 竞争 层 神 经 元 将 有 最 大 的 输出 值 ， 即 以 竞争 层 
获胜 神经 元 来 表示 分 类 结果 。 竞 争 型 神经 网 络 结构 如 图 8-56 所 示 。 
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输入 向 量 
ia 


















图 8-56 ”竞争 型 神经 网 络 


程序 8-25.py 演示 了 竞争 型 神经 网 络 .: 


4 -*- coding: utf-8 =*= 
#8-25 .py 


import numpy as np 
import neurolab as nl 
import numpy.random as rand 


# 每 一 类 的 中 心 

cente = s4p.srray(rI[O.2, 0.2], TW. 0.41, I8.7, 0.311) 
# 以 每 类 的 中 心 为 基础 ， 产 生 随 机 点 。 

rand norm 三 0.05 * rand.randn(100, 3, 2) 

inp - np.array([centr « r for r in rand norm]) 
inp.shape - (100 * 3, 2) 

rand.shuffle(inp) 


4 Create net with 2 inputs and 3 neurons 

net = nl.b&et.newcelt[I0.0, 1.0],[0.0, 1.0]], 3) 

# 训练 该 神经 网 络 

# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train(inp, epochs-200, show-20) 


* Plot results: 

import pylab as pl 
.title('Classification Problem') 
| . subplot (211) 

.plot (error) 

l.xlabel('Epoch number') 
l.ylabel('error (default MAE)') 

= net.layers[0].np['w"'] 


€ "Oo UU o! 


pl.subplot (212) 





gBliploet(inp[Is,0], impf[:sll, "s W 

Gentris.01, cESBREE[GI, 213 , "yv. X 

wisada wis tl, *p') 
pl.legend(['train samples', 'real centers', 'train centers'],loc-2) 
pl.show() 


程序 8-25.py 创建 了 3 个 神经 元 ， 接 受 2 个 输入 ， 输 出 为 3 类 。 运 行程 序 8-25.py， 输 由 
结果 如 图 8-57 所 示 。 
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* * train samples 
||* v real centers 
* train centers 








= 


图 8-57 竞争 型 神经 网 络 分 类 


观察 图 8-57， 程 序 将 训练 用 样本 点 聚集 为 3 个 类 别 ， 其 中 ，train samples 表示 训练 样本 ， 
real centers 表示 真实 中 心 ，train centers 表示 训练 中 心 。 

下 面 在 程序 8-25.py 的 基础 上 加 入 测试 用 的 平均 随机 分 布点 ， 检 查 其 分 类 效果 ， 如 程 
FF. 8-26.py 所 示 : 


# -*- coding: utf-8 -*- 
#8-26 .py 


import numpy as np 
import neurolab as nl 
import numpy.random as rand 


# 每 一 类 的 中 心 

centr-- üp.array([[0.2, 0.2], [0.42, 0.4], [0.7, 0.811) 
# 以 每 类 的 中 心 为 基础 ， 产 生 随 机 点 。 

rand norm - 0.05 * rand.randn(100, 3, 2) 

inp = np.array([centr + r for r in rand norm]) 
inp.shape = (100 * 3, 2) 

rand.shuffle(inp) 


# Create net with 2 inputs and 3 neurons 

net = nl.net.newc([[0.0, 1.0],[0.0, 1.0]1], 3) 

# 训练 该 神经 网 络 

# train with rule: Conscience Winner Take All algoritm (CWTA) 
error - net.train(inp, epochs-200, show-20) 


* Plot results: 
import pylab as pl 
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pl.title('Classification Problem') 
pl.subplot(211) 

pl.plot(error) 

pl.xlabel('Epoch number') 
pl.ylabel('error (default MAE)') 
w - net.layers[0].np['w'] 


EAE 100 个 [0,1) 之 间 的 平均 分 布 的 随机 数 
rand array-np.random.random((100,2)) 
result-net.sim(rand array) 
plotshape-[] 
eolorindexs['rf','y*';"g'] 
for myres in result: 
index-0 
for tmp in myres: 
if tmpssl: 
plotshape.append(colorindex[index]-«'p') 
break 
index-«-1 
pl.subplot (212) 
pl.plot(inp[:,0], àinp[:,1], *'.*) 
for i in range(len(result)-1): 
pl.plot(rand array[i,0],rand array[i, 1l,plotshapel[il) 


pl.show() 


程序 8-26.py 生成 了 100 4- [0,1 ) 之 间 的 平均 分 布 的 随机 数 ， 然 后 由 训练 完成 的 神经 网 
络 进行 分 类 。 运 行程 序 8-26.py， 效 果 如 图 8-58 所 示 ， 训 练 样本 点 为 蓝 色 圆 形 ， 测 试 样本 点 
为 多 边 形 ， 测 试 样 本 点 的 不 同色 彩 代表 了 被 分 为 不 同 的 类 。 此 外 ， 图 8-58 上 方 的 图 表示 误 
差 ， 从 误差 曲线 来 看 ， 神 经 网 络 训练 过 程 顺利 ， 呈 平滑 下 降 趋 势 。 


表 8-8 网 站 的 访问 量 情况 








ET 


图 8-58 测试 点 聚 类 
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设 某 网 站 的 访问 量 比较 稳定 ， 无 突出 变化 ， 以 某 周 所 有 地 区 对 该 网 站 的 访问 情况 为 例 ， 对 
来 访 地 区 进行 聚 类 ， 数 据 如 表 8-8 所 示 (PV 为 总 访问 量 , UV 为 总 访问 客 数 , area 为 地 区 编号 )。 

编写 程序 8-27.py， 实 现 对 表 8-8 所 示 的 来 访 地 区 的 聚 类 ， 此外， 再 增加 100 个 随机 点 ， 
检测 聚 类 效果 。 


4 =*= coding: ütf-8 -*- 
#8-27.py 


import numpy as np 
import neurolab as nl 


# 读 取 数据 

import csv 

datacluster-[] 

file - open("access area.csv",'r') 

file.readline() 

reader - csv.reader(file) 

for datarow in reader: 
datacluster.append([float(datarow[1]),float(datarow[2])]) 


accessdata-np.array (datacluster) 


# Create net with 2 inputs and 7 neurons, 分 为 7 类 

net = nl.net.newc([[0.0, max(accessdata[:,0])1, [0.0, max(accessdata[:,11)11],7) 
# 训练 该 神经 网 络 

* train with rule: Conscience Winner Take All algoritm (CWTA) 

error - net.train(accessdata, epochs-200, show-20) 


# Plot results: 

import pylab as pl 
pl.title('Classification Problem') 
pl.subplot (211) 

pl.plot(error) 

pl.xlabel('Epoch number ') 
pl.ylabel('error (default MAE)') 
w - net.layers[0].np['w'] 


# 生成 100 个 平均 分 布 的 随机 数 
rand array-np.random.random((100,2))*np.array([max(accessdata[:,0]) ,max(accessd 
ata[:,1]1)1) 
result-net.sim(rand array) 
plotshape-[] 
colorindezxse['rt,t'g!',t'g','m ';'m'."kt,"p5*] 
for myres in result: 
index-0 
for tmp in myres: 
if tmpszs-1: 
plotshape.append(colorindex[index]^'p') 
break 
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index+=1 
w = net.layers[0].np['w'] 
pl.subplot (212) 
pl.xlabel('PV') 
pl.ylabel('UV') 
pl.plot(accessdata[:,0], accessdata[:,1], '.') 


for i in range(len(result)-1): 

pl.plot(rand array[i,0],rand array[i, 1],plotshape[il) 
for i in xrange(7): 

pl.plot(w[i,0], w[i,1],colorindex[i]-'v') 


pl.show() 


Epoch: 20; Error: 786.921489826; 
Epoch: 40; Error: 784.125494497; 
Epoch: 60; Error: 783.165674735; 
Epoch: 80; Error: 782.677433443; 
Epoch: 100; Error: 782.381170541; 
Epoch: 120; Error: 782.182073001; 
Epoch: 140; Error: 782.039000206; 
Epoch: 160; Error: 781.931187336; 
Epoch: 180; Error: 781.84701229; 
Epoch: 200; Error: 781.77945951; 
The maximum number of train epochs is reached 
>>> 


运行 程序 8-27.py， 将 样本 聚 成 7 类， 同时 将 测试 点 较 好 地 完成 分 类 。 效 果 如 图 8-59 所 示 。 





图 8-59 ”地 区 聚 类 
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观察 图 8-59， 不 同色 彩 的 多 边 形 代表 了 测试 点 被 分 成 了 7 类， 此 外 ,程序 还 绘制 了 样本 
点 及 倒 三 角 代 表 的 类 别 中 心 点 ， 总 体 来 看 ， 效 果 还 不 错 。 


8.9.5 Hamming 神经 网 络 


图 8-60 是 最 典型 的 Hamming 神经 网 络 ， 第 一 层 上 面 的 方 框 input 
是 输入 数据 ， 每 个 输入 数据 都 会 与 神经 元 相连 。 每 个 神经 元 的 一 DE js 









组 连接 权 值 存储 的 是 一 个 识别 对 象 的 模板 ， 神 经 元 的 作用 就 是 计 lay en PEN 

算 输入 数据 与 其 连接 权 值 所 存 模板 的 匹配 距离 ， 匹 配 程度 由 神经 ES o» 

元 输出 ， 匹 配 度 越 高 ， 输 出 值 越 大 。 
假设 销售 某 虚 拟 物品 时 ， 向 客户 展示 了 一 些 相关 的 畅销 虚拟 E x 


LA 
E 
LS PNN 


lay er2 


物品 ， 以 吸引 客户 点 击 购买 ， 以 表 8-9 所 示 的 数据 为 例 ， 将 消费 ”图 8-60 Hamming 神经 网 络 
兴趣 类 似 的 客户 分 类 。 








K 8-9 中 ，Al 表示 A 类 虚拟 物品 的 1 号 商品 ，B2 表示 B 类 虚拟 物品 藤 
类 推 。 每 一 行 代表 一 类 ， 每 列 数据 代表 该 类 客户 浏览 的 虚拟 商品 ， 如 果 i 
多 ， 则 为 1， 否 则 为 -1。 

编写 Python 代码 进行 聚 类 (sales4.csv 在 本 书 源 代 码 包 中 )， 如 程序 8-28.py 所 示 。 


4 -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
#8-28.py 

import numpy as np 

import neurolab as nl 


# 读 取 数据 
import csv 
datatarget-[] 
file - open("sales4.csv",'r') 
file.readline() 
reader - csv.reader(file) 
ii-0 
for datarow in reader: 
datatarget.append([]) 
for data in datarow: 
datatarget[ii].append(int (data)) 
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ii-ii41 


datatarget-np.array (datatarget) 


input = [[Z,1,141541,1,1,-1,-1,-1,-1,-1], 
[1,-1,1,-1,1;-1,1;1,-1,-1,-1,1], 
[1,1,-71,-1,1,-1,-1,-1,—1,1,1,-11] 


# Create and train network 
net = nl.net.newhem(datatarget) 


output - net.sim(datatarget) 
print un 样本 数据 ， 结 果 必 须 为 [0，1，2，3，4]， 


print np.argmax(output, axis-0) 


output - net.sim(input) 
print u" 测试 数据 的 神经 网 络 最 终 输 出 " 
print output 
print u" 测试 数据 的 分 类 结果 如 下 : " 
ii-0 
for test in output: 

print  input[ii], 

print un 分 类 如 下 :" 

print np.argmax(test) 

ii-4z1 


程序 8-28.py 首先 读 取样 本 sales4.csv 文件 ; 然后 将 样本 数据 送 入 Hamming 神经 网 络 中 
训练 ， 匹 配 程度 由 神经 元 输出 ， 匹 配 度 越 高 ， 输 出 值 越 大 ， 通 常 来 说 最 大 值 对 应 的 位 置 


即 最 终 分 类 ; 最 后 ， 用 测试 数据 进行 验证 。 执 行程 序 8-28.py， 结 果 如 下 。 


样本 数据 的 结果 必须 为 [ 0,1,2,3,4 ]。 
[0 1 2 3 4] 


测试 数据 神经 网 络 的 最 终 输 出 如 下 : 


[[ 0.52608 0 0 0 0 ] 
[ 0 0 0. 0.464 0. ] 
[ 0 0 0. 0 0.4992 ]] 

来 看 看 测试 数据 的 分 类 结果 。 

[ 1,1,1,1,—1,1,1,-1,-1,-1,-1,-1 ] 分 类 如 下 : 

0 

[ ll dd lls dl ] 分 类 如 下 : 

3 

[ 1,1,-1,-1,1,-1,—1,-1,-1,1,1,-1 ] 分 类 如 下 : 

4 
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观察 上 述 结果 ， 三 组 测试 数据 均 分 类 准确 ， 效 果 不 错 。 


8.40 ”小 结 


机 器 学 习 算 法 是 机 器 学 习 的 灵魂 。 本 章 首先 介绍 神经 网 络 ， 由 浅 人 深 地 讲述 了 基于 
Rosenblatt 感知 器 的 线性 神经 网 络 、 反 向 传播 算法 及 基于 多 层 感知 器 的 非 线 性 神经 网 络 ; 然 
后 介绍 了 平均 值 与 方差 、 贝 叶 斯 分 类 等 统计 算法 ; 接着 阐述 了 相似 度 算法 的 两 个 常用 方法 : 
欧 氏 距离 和 余弦 相似 度 ; 再 然后 讲解 了 SVM、 回 归 算 法 、PCA 降 维 等 机 器 学 习 算 法 ; 最 
后 讲解 了 关联 规则 算法 、 常 用 聚 类 算法 、 决 策 树 算法 、AdaBoost 算 法、 竞争 型 神经 网 络 、 
Hamming 神经 网 络 等 算法 知识 。 

在 讲述 算法 的 同时 ， 笔 者 理论 联系 实际 ， 讲 解 了 如 何 用 Python 及 相关 库 、R 语言 来 实践 
机 器 学 习 算 法 。 此 外 ， 为 帮助 读者 更 好 地 理解 算法 ， 在 解说 每 一 节 的 算法 之 前 ， 均 介绍 了 算 
法 涉及 的 数学 基础 知识 。 

每 一 种 机 器 学 习 算 法 不 一 定 能 完成 所 有 机 器 学 习 的 任务 。 因 此 ， 应 在 实践 中 应 用 这 些 算 
法 ， 观 察 算法 的 实际 效果 ， 以 求 选择 最 合适 的 算法 。 

此 外 ， 本 章 介绍 的 机 器 学 习 相关 库 的 官方 文档 的 网 址 如 下 : 

DQ mlpy: http://sourceforge.net/projects/mlpy/files/mlpy%203.5.0/mlpy.pdf/download 

口 neurolab: https://pythonhosted.org/neurolab/index.html 


思考 题 


(1) 编写 Python 代码 实现 一 个 Rosenblatt 感知 器 ， 随 机 产生 一 组 了 和 了 的 样本 值 ， 这 
些 样本 值 分 别 属于 以 下 两 类 函数 : 
5x-3-y 为 第 1 类 
2x+6=y 为 第 2 类 
然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 分 类 线 。 
(2) 编写 Python 代码 实现 多 层 感知 器 ， 随 机 产生 一 组 筷 和 了 的 样本 值 ， 用 随机 数据 对 训 
练 后 的 网 络 进行 测试 绘制 散 点 图 和 误差 曲线 ， 计 算式 和 了 的 方差 和 平均 值 ， 分 析 其 分 布 趋势 。 
(3) 编写 Python 代码 实现 多 层 感 知 器 ， 绘 制 样本 散 点 图 和 误差 曲线 。 随 机 产生 一 组 区 
样本 值 ， 并 将 了 的 样本 值 函 数 定义 为 : 
Y-sin(x)*0.7 
(4) 编写 Python 代码 实现 SVM 算法 ， 随 机 产生 一 组 XY 和 了 的 样本 值 ， 这 些 样本 值 分 别 
属于 以 下 两 类 函数 : 
y-x^atb (a«—3,abs(b)«20) 为 第 一 类 
y-x^atb (a>=5,abs(b)<10) 为 第 二 类 
然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 散 点 图 。 
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(5) 选择 一 组 数据 ， 用 Python 实现 下 面 的 回归 方程 : 
y-bl*x2-b2*xl^-b3*x1*x2 

(6) 下 载 本 书 的 sales4.csv 文件 ， 加 入 更 多 类 别 的 样本 数据 ， 并 生成 一 些 随 机 测试 数据 ， 
进行 Hamming 神经 网 络 分 类 ， 并 测试 分 类 效果 。 

(7) 生成 0 ~ 9 共 9 个 数字 的 印刷 体 样本 ,并 生成 一 些 测试 样本 数据 ， 进 行 Hamming 
神经 网 络 分 类 ， 检 查分 类 效果 。 

提示 : 可 将 数字 的 像素 点 组 成 矩阵， 然后 展开 成 特征 向 量 。 比 如 : 8 可 表示 为 以 下 由 像 
素 点 组 成 的 矩阵 ( 1 表示 有 像素 点 ，-1 表示 无 像素 点 ): 





将 8 的 像素 点 矩阵 由 左 到 右 、 由 上 到 下 依次 展开 ， 生 成 特征 值 如 下 : [LLL 
-1,1,1,1,1,1,-1,1,1,1,1 Jo 

(8) 下 表 是 某 些 顾客 对 A ~ D 四 类 商品 的 季度 消费 金额 ， 对 这 些 顾 客运 用 本 章 讲 解 的 
各 种 聚 类 方法 进行 聚 类 。 
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在 科学 和 工程 问题 上 可 通过 采样 、 实 验 等 方法 获得 若干 离散 的 数据 ， 分 析 这 些 数据 能 得 
到 一 个 连续 的 函数 (曲线 ) 或 者 更 加 密集 的 离散 方程 ， 且 这 个 方程 与 已 知 数据 相 吻合 ， 这 个 
过 程 叫做 数据 拟 合 。 数 据 拟 合 实质 是 针对 一 组 未 知 规 律 的 数据 建立 数学 方程 ， 通 过 数学 方法 
建立 一 个 函数 映射 方式 。 

前 面 几 章 涉及 了 很 多 回归 分 析 算 法 ， 都 是 先 根据 样本 建立 模型 ， 然 后 分 析 回 归 效 果 ， 最 
终 目 的 是 弄 清楚 两 个 或 两 个 以 上 变量 之 间 的 因果 关系 ， 因 此 ， 这 些 算法 都 是 对 数据 的 拟 合 。 


91 数据 拟 合 

分 析 一 个 自 变 量 和 一 个 因 变 量 之 间 的 关系 ， 可 通过 图 像 分 析 法 与 神经 网 络 拟 合法 建立 数 
学 模型 进行 映射 。 
9.1.1 图 像 分 析 法 

顾名思义 ， 图 像 分 析 法 就 是 将 样本 数据 中 的 自 变 量 蕊 和 因 变 量 了 的 值 映 射 为 平面 直角 坐 
标 系 中 的 点 ， 其 XX 轴 坐 标 和 了 轴 坐 标的 值 分 别 为 自 变量 和 因 变 量 的 值 ， 这 些 点 共同 形成 一 个 
散 点 图 。 通 过 分 析 散 点 图 中 这 些 点 的 几何 分 布 趋势 ， 对 照常 见 函数 图 像 ， 选 择 最 接近 的 、 最 
适合 的 数学 函数 作为 拟 合 方程 。 

既然 是 图 像 分 析 法 ， 那 么 就 需要 对 常见 的 数学 函数 及 其 图 像 有 一 个 直观 的 认识 。 因 此 ， 
这 里 先 介绍 常见 的 数学 函数 。 

1. PAM 

FAROE U = B PRG, RARO A TE, RAAT, dXXa 为 常量 ，a 可 
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以 是 自然 数 、 有 理 数 、 任 意 实 数 或 复数 。 下 面 是 几 个 经 典 的 究 函 数 。 
口 指数 为 1、2、1/2 的 曙 函 数 ， 它 们 分 别 为 y=x、y=x 、y=x"” ， 图 像 如 图 9-1 所 示 。 
口 指数 为 3、1/3 RRG ETSIA y=, y=, BRE 9-2 所 示 。 


yc 





y 





AAA 





图 9-1 指数 为 1、2、1/2 IU REPERI S 图 9-2 指数 为 3、1/3 WERKER 
OQ 指数 为 -1 的 寡 函 数 ， 函 数 为 y=x'， 图 像 如 图 9-3 所 示 。 
2. 一 次 函数 


一 次 函数 又 称 线性 函数 ， 是 指 拥有 一 个 变量 的 一 阶 多 项 式 函 数 。 一 次 函数 可 以 表达 为 以 
下 和 斜 截 式 的 格式 : | 
fixy-kxtb 
Hop, 是 斜率 ，b ERE, 
一 次 函数 在 二 维 坐 标 系 中 表现 为 一 条 直线 ， 以 自 变量 为 X 轴 ， 以 因 变 量 为 了 7 轴 。 如 : 
y-2x*1 和 y=-x+1 属于 一 次 函数 ， 它 们 的 图 像 如 图 9-4 所 示 。 








图 9-3 ”指数 为 -1 的 寡 函 数 图 像 图 9-4 一 次 函数 图 像 


3. 一 元 二 次 函数 
如 果 y=ax+bx+c (a, b, c 为 常数 ，a 不 为 0)， 则 称 了 为 x 的 一 元 二 次 函数 ， 其 中 ，a 称 
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为 二 次 项 系数 ，2 为 一 次 项 系数 ，c 为 常数 项 。 


一 元 二 次 函数 是 抛物 线 ， 是 轴 对 称 图 形 ， 它 的 对 称 轴 为 直线 x= -了 它 的 顶点 坐标 为 
LESS J 此 外 ， 一 元 二 次 函数 还 可 写成 交点 式 : y=a(x-x1)(x-x2)， 交 点 式 仅 限 于 与 x 
轴 有 交点 的 抛物 线 ， 与 x 轴 的 交点 坐标 是 (x1,0 ) 和 (xz,0 )。 

如 图 9-5 所 示 为 一 元 二 次 函数 y=2x*+x+1 和 y=-2x*+x+2 的 图 像 。 从 图 像 上 观察 ， 一 元 二 
次 函数 是 一 个 开口 向 上 或 开口 向 下 的 抛物 线 ， 二 次 项 系数 a 决定 抛物 线 的 开口 方向 和 大 小 ， 
当 a>0 时 ， 抛 物 线 向 上 开口 ; 当 aco 时 ， 抛物线 向 下 开口 。|a| 越 大 ， 则 抛物 线 的 开口 越 小 。 


4. 指数 函数 

指数 函数 ye 是 数学 中 重要 的 函数 ， 这 里 的 e 是 数学 常数 ， 就 是 自然 对 数 的 底数 ， 近 似 
等 于 2.718281828.y-e" 的 图 像 总 在 x 轴 之 上 并 从 左 向 右 递增 ， 它 接近 zx 轴 但 不 会 与 x 轴 相 交 。 

此 外 ， 还 可 定义 更 一 般 的 指数 函数 y=a*， 对 于 a>0 和 实数 x， 该 函数 可 称 为 底数 为 a 的 
指数 函数 。 亚 可 如 下 变换 为 以 e 为 底 的 指数 函数 。 

a=( "y= gne 

观察 图 9-7 所 示 的 指数 函数 ya, 24 a>1 时 ， 从 左 到 右 函 数 是 递增 的 ， 否 则 函数 是 递减 

的 。 指 数 函 数 遵循 以 下 运算 规律 : 





y 


yea 4 y=a 
(0<a>1) 











-— 4 9" 1 2 
图 9-7 指数 函数 y-a* 





a'b'-(aby 


5. 对 数 函 数 
相对 于 底数 a 数 x 的 对 数 是 w 的 指数 y， 使 得 x=a*， 相 对 于 底数 a 的 数 x 的 对 数 通常 记 
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为 y=logsx， 在 工程 计算 中 常用 e、10 和 2 来 做 底数 ， 如 表 9-1 所 示 。 
观察 图 9-8 所 示 的 对 数 函数 图 像 ， 可 看 出 : Mallt, K . E 
BRAIN, AW, RARAWA. HRE AUT 0, 它 。. 表 9-1_ 常 用 对 数 函 数 表示 


的 函数 图 像 是 递增 的 ， 如 图 9-9 所 示 。 


6. 三 角 函 数 
三 角 函 数 中 使 用 得 最 多 的 是 正弦 (如 图 9-10 BER. R 
(如 图 9-10 所 示 )、 正 切 (如 图 9-11 所 示 )、 余 切 (如 图 9-12 所 示 )。 














y4 
3 
2 
y-logx 
! (o>1) y=sin x y=cos x 
0 
1 3 AS 
一 | 
y=log x 
-2 (0<a<1) _ 
一 3 
adj 
图 9-8 y=logax 图 9-9 自然 对 数 图 9-10 正弦 函数 与 余弦 函数 
y-tanx 

















图 9-11 正切 函数 图 9-12 余 切 函数 


7. 多 项 式 函数 PIPER 

AGO BRUCH A EU EAR AR, ULH gt g g M yox -x-2 为 例 ， 其 函数 
图 像 如 图 9-13 和 图 9-14 所 示 。 

仔细 观察 前 面 列 举 的 函数 图 像 ， 可 发 现 常见 的 函数 分 为 两 种 : 线性 函数 与 非 线 性 函数 。 
其 中 ,线性 函数 是 变量 与 自 变 量 成 一 次 方 的 函数 关系 ,在 函数 图 上 呈现 一 条 直线 ; 而 非 线性 
清 数 是 指 两 个 变量 间 的 关系 不 成 简单 比例 ， 函 数 图 像 呈 现 为 曲线 。 

线性 拟 合 是 以 一 条 直线 来 拟 合 自 变量 与 因 变 量 的 关系 ， 而 非 线性 拟 合 用 连续 曲线 来 拟 合 自 
变量 与 因 变 量 之 间 的 关系 。 下 面 以 几 个 具体 实例 说 明 图 像 分 析 法 在 线性 与 非 线性 拟 合 中 的 应 用 。 

ww ai bot. com [1 BH B BL BL O. 


第 9 章 数据 拟 合 案例 $s 331 














3 3 
图 9-13 y- fT 3 wisst 图 9-14 yxa-2 的 函数 图 像 


1) 多 项 式 是 非 线性 函数 ， 如 图 9-15 所 示 的 图 像 为 两 类 样本 数据 生成 的 散 点 图 ， 其 中 虚 
线 和 实 线 各 代表 一 类 。 








0 VU le w ms TB dl MH Hy 
图 9-15 ”多项式 非 线性 拟 合 


从 图 9-15 Æ, 邓 轴 的 区 域 为 [0,5 ]， 两 条 曲线 代表 的 数据 都 比较 接近 多 项 式 函 数 图 像 y=x+b， 
因此 ， 可 选用 寡 函 数 作为 数据 拟 合 的 模型 。 此 外 ， 从 图 像 可 判定 ， 虚 线 函 数 的 导数 要 比 实 线 函 数 
的 导数 增长 得 快 ， 虚 线 数据 表示 的 方程 参数 a 要 比 实 线 表 示 的 方程 参数 a 大， 原因 是 : 导数 即 切 
线 的 斜率 ， 导 数 越 大 ， 切 线 越 陡 ， 而 虚线 函数 的 切线 明显 要 比 实 线 函 数 陡 很 多 ， 它 的 曲线 在 后 期 
更 加 上 扬 。 事 实 上 ， 图 9-15 所 代表 的 两 类 数据 的 模型 分 别 为 : 虚线 是 天 C+6， 实 线 是 y6. 

2 ) 大 学 生 身 高 与 体重 线性 拟 合 。 从 某 大 学 中 随机 选取 9 名 女 大 学 生 ， 其 身高 和 体重 数 
据 如 表 9-2 所 示 。 下 面 分 析 这 些 数 据 并 建立 女 大 学 生 身 高 与 体重 模型 ， 从 而 指导 女 大 学 生 通 
过 简易 的 公式 查询 自己 的 体重 是 否 标准 。 











首先 ,使 用 RR 语言 输入 数据 (本 例 只 有 9 个 数据 ， 可 手工 录入 。 当 数据 量 很 大 时 ， 可 使 
用 第 6 章 介 绍 的 read.table 也 数 读 取 数据 )。 
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»c(58,63,57,65,62,66,58,59,62) -5y 
»c(160,165,158,172,159,176,160,162,171) -»x 


接着 ， 用 自 变 量 身高 GO 与 因 变量 体重 Cy) 组 成 9 个 数据 点 ， 绘 制 在 直角 坐标 系 中 ， 
生成 散 点 图 。 

观察 分 析 散 点 图 趋势 ， 图 9-16 表明 ， 随 着 
x 的 增长 ,y 也 增长 ， 数 据点 呈 一 条 直线 分 布 ( 线 
性 拟 合 )。 

下 面 以 直线 模型 对 数据 进行 拟 合 ， 可 通过 
R 语言 进行 拟 合 分 析 。 

> lmí(y-x)-»xy 

> summary (xy) 

Call: | 

lm(formula - y - x) | T T ES 

| 165 170 175 


«o 
«o 
3 
N 
oO 
ce 
«5 
e 
u 





Residuals: 
Min 10 Median 3Q Max 
-1.7317 -1.0989 -0.9412 40.8471 3.3223 





K 9-16 女 大 学 生 身 高 体重 散 点 图 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -8.28830 15.94636 -0.520 0.61926 
x 0.42117 0.09671 4.355 0.00333 ** 


Signif. codes: (0 '***' 0.001 “=+” 0.01 '*' 0.05 '.' 0.1*' ' 1 


Residual standard error: 1.808 on 7 degrees of freedom 
Multiple R-squared: 0.7304, Adjusted R-squared: 0.6919 
F-statistic: 18.97 on 1 and 7 DF, p-value: 0.003334 


通过 对 上 述 直线 方程 模型 的 分 析 ， 可 初步 得 出 以 下 结论 : 

口 直线 方程 即 线性 方程 ， 可 写成 ) 天 axctb 的 方式 ，a 即 系数 (Coefficients 项 中 的 x) 为 
0.42117, b HI X ER. ( Coefficients 项 中 的 Intercept) 为 -8.28830， 线 性 拟 合 模型 为 
y-0.42117x-8.28830, 

O Coefficients 栏 的 x 行 尾 的 星 号 为 2 个 。 星 号 的 含义 表示 线性 关系 是 否 显著 : * 的 数量 
是 0 ~ 3,* 的 数量 越 多 则 线性 关系 越 显著 。 在 本 例 中 ， 自 变量 身高 与 因 变量 体重 的 
线性 关系 并 不 是 非常 显著 ， 和 否则 星 号 应 为 3 个 。 

下 面 绘制 回归 线 ， 图 9-17 所 示 。 观 察 各 数据 点 在 回归 线 周 围 的 分 布 情况 ， 目 测 拟 合 效果 。 


> plot(x,y) 
> abline( lm(y-x)) 


从 图 9-17 来 看 ， 数 据 分 布 在 回归 线 周围 ,但 某 些 数 据点 的 残 差 较 大 (比如 155 到 160 5f 
高 段 )。 总 体 来 说 ， 数 据 拟 合 效果 较 好 ， 没 有 出 现 数据 点 分 布 趋势 严重 偏离 回归 线 。 
通过 R 语言 的 residuals 函数 分 析 残 差 。 


> residuals(xy)-»xy res 
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> xy res 
1 2 3 4 5 6 7 
-1.0988557 1.7952956 -1.2565162 0.8471074 3.3223140 0.1624285 -1.0988557 
8 9 
-0.9411952 -1.7317228 


残 差 计算 的 方式 为 : 通过 上 一 步 计算 得 到 的 线性 模型 ， 将 9 个 女 大 学 生 的 自 变 量 身高 带 
入 线性 模型 中 的 x， 计 算出 观测 的 y 值 后 ， 计 算 实 际 值 与 预测 y 值 的 差额 ， 这 个 差额 就 是 残 
差 。 如 果 拟 合 模型 正确 ， 可 以 将 残 差 看 作 误 差 的 观测 值 ， 它 应 符合 模型 的 假设 条 件 ， 且 具有 
误差 的 一 些 性 质 。 

上 述 代码 根据 线性 模型 计算 得 出 残 差 对 象 xy_res，9 个 元 素 分 别 为 9 个 女 大 学 生 样 本 数 
据 的 残 差 ， 其 中 残 差 最 大 的 数据 为 第 5 个 女 大 学 生 ， 即 3.3223140， 最 小 为 0.1624285， 是 第 
6 个 女 大 学 生 。 

然后 ， 计 算 残 差 平 方 和 。 残 差 平 方 和 是 指 每 个 残 差 的 平方 后 的 累计 ， 它 表示 随机 误差 的 
效应 。 残 差 平方 和 是 衡量 拟 合 优 度 的 重要 标准 ， 它 的 值 越 小 ， 说 明 拟 合 效果 越 好 。 通 过 下 面 
代码 计算 ， 线 性 模型 拟 合 后 的 残 差 平 方 和 为 22.88334。 


> sum(xy res*xy res) 
[1] 22.88334 


最 后 ， 分 析 残 差分 布 、 标 准 残 差 及 标准 残 差 图 。 
残 差 为 测定 值 与 按 回归 方程 预测 的 值 之 差 ， 可 用 5 表示， 如 果 数 据 拟 合 模型 效果 较 好 ， 
那么 残 差 5 应 遵从 正 态 分 布 N(0，o )， 通 过 绘制 QQ 图 观察 残 差 数据 是 否 符合 正 态 分 布 。 


> qqnorm(xy res) 
> qqline (xy. res) 


观察 残 差 分 布 QQ 图 ， 如 图 9-18 所 示 。 可 看 出 : RÆ ô 分 布 接近 正 态 分 布 ， 数 据点 基本 
在 直线 附近 ， 回 归 效 果 较 理想 ， 但 仍 不 是 非常 理想 。 


Normal Q-Q Plot 
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图 9-17 女 大 学 生 身 高 体重 数据 的 时 申 线 n nnnnnnn 图 9-18 ” 残 差 分 布 QQ 图 
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标准 残 差 就 是 ( 残 差 5- 残 差 的 均值 ) / 残 差 的 标准 差 ， 用 6* 表示 。 下 面 通过 RR 语言 的 
rstandard 函数 计算 身高 体重 拟 合 模型 的 标准 残 差 ， 同 时 绘制 标准 残 差 图 ， 图 9-19 所 示 。 


> rstandard(xy)-»std xy res 
» std xy res 


1 2 3 4 5 6 x 
-0.6696927 1.0532610 -0.7984996 0.5447647 12.0629420 0.1235619 -0.6696927 
8 9 


-04,5591209 -1.0857781 

> plot(x,std xy res) 

> abline(hz0) 

标准 残 差 图 是 以 拟 合 模型 的 自 变 量 为 横 坐 标 ， 以 标准 残 差 为 纵 坐 标 ， 将 每 一 个 自 变 量 的 
标准 残 差 描 述 在 该 平面 坐标 上 ， 形 成 图 形 ， 实 验 点 的 标准 残 差 落 在 残 差 图 的 (-2，2 ) 区 间 以 
外 的 概率 < 0.05， 若 某 一 实验 点 的 标准 化 残 差 落 在 (72, 2) 区 间 以 外 ,可 在 95% 置信 和 度 将 
其 判 为 异常 实验 点 。 置 信和 度 也 称 置 信 水 平 ， 抽 样 不 可 能 抽取 全 部 总 体 进行 分 析 ， 由 于 样本 的 
随机 性 ， 通 过 这 些 样 本 对 总 体 参数 作出 估计 时 ， 结 论 总 是 不 确定 的 ， 因 此 引入 置信 和 度 ， 用 概 
率 来 陈述 总 体 参数 值 落 在 样本 统计 值 某 一 区 内 的 可 能 性 。 

当 描 绘 标准 残 差 的 点 围绕 标准 残 差 等 于 0 的 直线 上 下 完全 随机 地 分 布 ， 绝 大 多 数 点 落 在 
(-2，+2 ) 的 水 平 带 状 区 间 之 中 ， 且 不 带 有 任何 系统 趋势 时 ， 则 说 明 拟 合 模型 对 原 观 测 值 ( 即 
样本 ) 的 拟 合 情况 良好 ， 如 图 9-20 所 示 。 
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图 9-19 身高 体重 标准 残 差 图 KI 9-20 拟 合 良好 的 标准 残 差 图 


如 果 拟 合 方 程 原本 是 非 线 性 模型 (曲线 )， 但 拟 合 时 却 采用 了 线性 模型 (直线 )， 标 准 化 
残 差 图 就 会 表现 出 曲线 形状 ， 产 生 系统 性 偏差 ， 说 明 拟 合 模型 不 适合 ， 如 图 9-21、 图 9-22 
所 示 。 

针对 当前 的 拟 合 模 型 ， 样 本 数据 中 如 果 出 现 了 异常 点 ， 它 们 会 远离 大 多 数 数据 点 ， 如 
图 9-23 所 示 。 
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图 9-21 出现 系统 性 偏差 的 标准 残 差 图 中 图 9-22 ”出 现 系统 性 偏差 的 标准 残 差 图 外 
此 外 ， 如 果 拟 合 不 充分 ， 很 多 点 会 落 在 (-2,+2 ) 的 水 平 带 状 区 间 之 外 ， 如 图 9-24 所 示 。 
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图 9-23 ”异常 点 图 9-24 拟 合 不 充分 


根据 标准 残 差 图 的 相关 知识 ， 观 察 图 9-19 所 示 的 身高 体重 标准 残 差 图 ， 可 得 出 以 下 结论 : 

O 绝 大 部 分 数据 在 (-2, +2) 的 水 平 带 状 区 间 内 ， 因 此 模型 拟 合 较 充分 。 

O 数据 点 分 布 稍 均匀 ， 但 没有 达到 随机 均匀 分 布 的 状态 。 此 外 ， 部 分 数据 点 还 是 呈现 某 
种 曲线 波动 形状 ， 有 少许 系统 性 偏差 ， 因 此 可 能 采用 非 线 性 拟 合 效 果 会 更 好 。 

3) 大 学 生 身 高 与 体重 非 线性 拟 合 。 继 续 以 女 大 学 生 身 高 与 体重 的 例子 为 例 ， 再 次 仔细 


观察 图 9-16 所 示 的 散 点 图 ， 数 据点 呈现 上 凸 的 递增 曲线 分 布 ， 可 对 身高 与 体重 的 关系 应 用 非 
线性 模型 ， 也 许 效果 会 比 直线 好 ， 因 为 曲线 更 贴近 它 的 分 布 趋势 。 那 么 选用 哪个 非 线性 数学 
函数 比较 适合 呢 ? 观 察 前 面 列举 的 常见 函数 图 像 ， 可 发 现 短 函数 比较 适合 ， 尤 其 是 y=x” 的 
函数 图 像 ， 也 呈现 上 凸 且 递增 趋势 ， 但 是 寡 函 数 y^ 仅 有 一 个 参数 a， 需要 进行 变形 ， 在 也 
数 尾部 加 上 截 距 5， 使 函数 图 像 能 在 了 轴 整 体 上 下 移动 ， 这 样 ， 就 拥有 了 两 个 可 调节 参数 ， 
形成 的 拟 合 方程 更 灵活 和 适用 。 


细心 的 读者 肯定 发 现 了 ， 加 上 截 距 后 ， 才 函数 yox ER T ERR yb, KA 


非 线性 拟 合 模型 假设 为 yox" eb 的 多 项 式 方程 。 


首先 ， 显 示 自 变量 和 因 变 量 数据 。 


> x 
[1] 160 165 158 172 159 176 160 162 171 
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-y 
[1] 58 63 57 65 62 66 58 59 62 


接着 ， 通 过 nls 函数 建立 非 线性 拟 合 模型 ， 并 通过 summary 函数 分 析 该 模型 。 


> nls(y - Const + x^A)-»nlmod 
> summary (nlmod) 


Formula: y ~ Const + x^A 


Parameters: 

Estimate Std. Error t value Pr(>|t|) 
Const -19.66594 15.09467 -1:303 0.234 
A 0.86036 0.03657 23.523 6.376-08 *** 


» 


signif. codes: O '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1*' 1 


Residual standard error: 1.808 on 7 degrees of freedom 


Number of iterations to convergence: 4 
Achieved convergence tolerance: 5.78e-06 


然后 ， 计 算 残 差 ， 分 析 残 差 平 方 和 。 


> residuals (nlmod)-»nixy. res 

» nlxy res 

[1] -1.0986204 1.7882691 -1.2508068 0.8448399 3.3251002 0.1704208 
-1.0986204 -0.9449555 -1.7357098 

attr(,"label") 

[1] "Residuals" 

» sum(nlxy res*nlxy res) 

[1] 22.88108 


上 述 代 码 计 算得 出 的 残 差 平方 和 为 22.88108， 比 刚才 应 用 线性 拟 合 的 残 差 平方 和 
22.88334 稍 小 些 ， 可 见 非 线性 模型 更 适合 拟 合 本 例 中 的 身高 体重 数据 。 

下 面 ， 绘 制 残 差 的 QQ 图， 如 图 9-25 所 示 。 从 QQ 图 中 ， 可 看 出 : RÆ 5 分 布 接近 正 态 
分 布 ， 数 据点 基本 在 直线 附近 。 


> qqnorm(nlxy. res) 
» qgline(nlxy res) 


接着 ， 计 算 标 准 残 差 ， 将 计算 结果 存 人 std. nlxy res; 


> (nlxy res-mean(nlxy res))/sd(nlxy res)-»std nlxy res 
> std nlxy res 
[1] -0.6496072 41.0574063 -0.7395947  40.4995580 31.9661322 0.1007751 
[7] -0.6496072 -0.5587453 -1.0263171 
attr(,"label") 
[1] "Residuals" 


绘制 标准 残 差 图 ， 如 图 9-26 所 示 。 


ww ai bit. com (10 00 B U 


第 9 章 数据 拟 合 案例 ej 337 


> plot(x,std nlxy. res) 
> abline(h-0) 


通过 绘制 图 9-26 所 示 的 标准 残 差 图 ， 应 用 summary 函数 对 非 线性 模型 进行 分 析 ， 以 及 
计算 残 差 平方 和 与 标准 残 差 ， 可 得 出 以 下 结论 : 


Normal Q-Q Plot 


Sample Quantiles 
std_nlxy_res 














图 9-25 ” 残 差 的 QQ 图 图 9-26 身高 体重 非 线性 模型 标准 残 差 图 


口 图 9-26 中 没有 任何 异常 点 ， 计 算 的 标准 残 差 全 在 ( -2，+2 ) 的 水 平 带 状 区 间 内 ， 模 
型 拟 合 充分 。 


O 图 9-26 中 数据 点 分 布 较 均匀 ， 拟 合 效果 良好 。 

口 残 差 平方 和 比 线性 模型 小 ， 非 线性 模型 更 适 于 描述 女 大 学 生 身 高 与 体重 的 关系 。 
口 非 线 性 拟 合 模型 为 y= 19 66594, 

最 后 ， 观 察 一 下 拟 合 预测 数据 以 及 拟 合 效果 图 ， 如 图 9-27 所 示 。 








160 165 170 175 
x 


图 9-27 拟 合 效果 图 
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> predict (nlmod) 

[1] 59.09862 61.21173 58.25081 64.15516 58.67490 65.82958 59.09862 59.94496 
[9] 63.73571 

> plot (x,y) 

> lines(x, predict(nlmod), col = 2) 


不 要 把 图 9-27 中 的 拟 合 线 误 看 成 直线 ， 通 过 分 析 predict(nlmod) 的 执行 结果 及 得 到 的 非 
线性 拟 合 方程 可 看 出 ， 拟 合 预测 点 的 位 置 在 一 条 曲线 上 ， 但 位 置 相差 不 大 。 

仔细 观察 图 9-27 ( 非 线性 拟 合 ) 与 图 9-17 (线性 拟 合 ) 的 拟 合 线 ， 可 以 看 出 ， 图 9-27 所 
示 的 确实 是 一 条 曲线 。 


9.1.2 ”神经 网 络 拟 合 


数据 分 布 如 果 近 似 一 条 直线 ， 可 以 使 用 线性 神经 网 络 来 完成 数据 拟 合 ， 比 如 上 一 章 介绍 
的 Rosenblatt 感知 器 ;如果 呈 曲线 ， 可 使 用 多 层 感知 器 的 神经 网 络 进行 拟 合 。 上 一 讲 述 了 
通过 观察 数据 分 布 图 像 ， 估 计 非 线性 回归 对 应 的 数学 方程 。 本 节 将 要 介绍 的 神经 网 络 方法 与 
之 不 同 ， 它 具有 学 习 未 知 数据 规律 的 能 力 。 

通过 样本 对 神经 网 络 进行 训练 的 过 程 就 是 在 输入 与 输出 数据 之 间 建 立 有 映射 的 过 程 。 训 
练 完成 后 ， 神 经 网 络 就 已 定型 ， 网 络 内 部 的 权 值 矩阵 和 神经 元 的 激活 函数 共同 组 成 了 映射 组 
件 ， 这 些 组 件 代 替 了 数学 方程 。 

1. 常见 数学 函数 拟 合 

理论 上 来 说 ， 有 了 神经 元 作为 映射 组 件 ， 神 经 网 络 可 以 对 数据 之 间 的 任何 规律 进行 学 习 
和 模仿 。 下 面 是 神经 网 络 对 上 一 节 介 绍 的 几 个 数学 函数 进行 拟 合 的 效果 。 

1) sin 函数 拟 合 。 顾 名 思 义 ，sin 函数 拟 合 就 是 使 用 一 组 数据 x 作为 输入 ， 通 过 神经 网 络 
建立 模型 ， 其 输出 值 为 sin(x)。 可 通过 使 用 Python 编写 神经 网 络 ， 实 现 sin RAMA o 

在 华章 网 站 下 载 本 书 的 资源 包 ， 打 开 里 面 的 文档 “多 层 感 知 器 神经 网 络 源 代码 .doc”。 
下 面 将 在 该 文档 中 源 代码 的 基础 上 进行 修改 ， 实 现 非 线性 拟 合 。 

首先 ， 随 机 生成 500 个 x 值 ， 同 时 计算 这 些 样本 对 应 的 目标 值 。 代 码 如 下 : 

#!/usr/bin/env python 

#=*- coding: utf-8 -*- 

dcode:myhasplGqq.com 

#9-1.py 

import numpy as np 

import matplotlib.pyplot as plt 


import random 
import copy 


isdebug-False 

ix fea 样本 初始 化 

train x -[] 

d-[] 

for yb i in xrange(0,500): 

train x.append([np.random.rand()*4*np.pi-2*np.pi]) 
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for yb. i in xrange(0,500): 
d.append(np.sin(train x[yb i])) 


然后 设置 相关 参数 。 代 码 如 下 : 


warray txn-len(train x[0]) 
warray. n-warray txn*4*2 


# 基本 参数 初始 化 
oldmse-10**100 
err-[] 
maxtrycount-800 


mycount-z0.0 

if maxtrycount»-20: 
r-maxtrycount/10 
else: 

r-maxtrycount/2 
#sigmoid 函数 

ann sigfun-None 

ann, delta sigfun-None 
# 总 层 数 初始 化 

alllevel count-int (warray txn*4*1.541) 
# 非 线性 层 数 初始 化 


hidelevel count-alllevel count-1 


# 学 习 率 参数 
learn_r0=0.002 

learn, r-learn r0 *1.5 
# 动量 参数 

train, a0-learn r0*1.2 
train a0*-0.001 
train, a-train a0 
expect e-0.02 


接着 ， 对 数据 进行 预 处 理 ， 并 生成 初始 权 值 矩 阵 。 
# 对 输入 数据 进行 预 处 理 


ann, max-[] 
for m ani in xrange(0,warray txn): 

temp x-np.array(train x) 

ann max.append(np.max(temp x[:,m ani]) 
ann max-np.array(ann max) 


def getnowsx(mysx,in w): 
生成 本 次 的 扩 维 输入 数据 ，'， 
global warray n 
mysx-np.array (mysx) 
x end-[] 
for i in xrange(0,warray n): 
x end.append(np.dot(mysx,in w[:,i])) 
return x end 
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def get inlw(my train max,w count,myin x): 

n! 计算 对 输入 数据 预 处 理 的 权 值 ''' 

# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 

global warray txn 

global warray n 

mylw-[] 

y in-[] 

# 生成 测试 权 值 

mylw-np.random.rand(w count,warray txn,warray. n) 

for ii in xrange (0,warray txn): 
mylw[:,ii,:]smylw[:,ii,:]*1/float(my train max[ii])-1/float (my. 
train max[ii])*0.5 


# 计算 输出 
for i in xrange(0,w count): 
y-in.append([l) 
for xj in xrange(0,len(myin x)): 
y in[il.append(getnowsx(myin x[xj],mylw[i])) 
# 计算 均 方 差 
mymin-10**5 
mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[i]) 
if abs (myvar-1)«mymin: 
mymin-abs (myvar-1) 
mychoice-i 
# 返回 数据 整理 的 权 值 矩 阵 


return mylw[mychoice] 
mylnww-get inlw(ann max,300,train x) 


def get inputx(mytrain x,myin w): 
oo 将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 ''， 
end trainx-[] 
for i in xrange(0,len(mytrain x)): 
end trainx.append(getnowsx(mytrain x[i],myin w)) 
return end trainx 


x-get inputx(train x,mylnww) 


def get siminx(sim x): 
global mylnww 
myxx-np.array(sim x) 
return get inputx(myxx,mylnww) 


def getlevelw(myin x,wo n,wi n,w count): 
"o 计算 一 层 的 初始 化 权 值 矩阵 ' 
mylw=[] 
y—in=[] 
# 生成 测试 权 值 
mylw-np.random.rand(w count,wi n,wo, n) 
mylw-mylw*2.-1 


# 计算 输出 
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for i in xrange(0,w count): 
y-in.append([]l) 
for xj in xrange(0,len(myin x)): 
x end-[] 
for myii in xrange(0,wo n): 
x end.append(np.dot(myin x[xj],mylw[i,:,myii]l)) 
y in[i].append(x end) 
# 计算 均 方 差 
mymin-10**3 
mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[il) 
if abs (myvar-1)«mymin: 
mymin-abs (myvar-1) 
mychoice-i 
# 返回 数据 整理 的 权 值 矩阵 
csmylw=mylw [mychoice] 
return csmylw,y in[mychoice] 


ann w-[] 
def init, annw(): 
global x 
global hidelevel count 
global warray n 
global d 
global ann w 
ann, w-[] 


lwyii-np.array (x) 
for myn in xrange(0,hidelevel count): 
# 层 数 
ann w.append([]) 
if myn--hidelevel count-1: 
for iii in xrange(0,warray. n): 
ann w[myn].append((]) 
for jjj in xrange(0,warray. n): 
ann w[myn] [iii].append(0.0) 
elif myn--hidelevel count-2: 
templw,lwyii-getlevelw(lwyii,len(d[0]),warray. n,10) 
for xii in xrange(0,warray n): 
ann w[myn].append([1) 
for xjj in xrange(0,len(d[0])): 
ann w[myn] [xii].append(templw[xii,xjjl) 
for xjj in xrange(len(d[0]),warray n): 
ann w[myn] [xii].append(0.0) 
else: 
templw,lwyii-getlevelw(lwyii,warray n,warray. n,10) 
for xii in xrange(0,warray n): 
ann w[myn].append([]) 
for xjj in xrange(0,warray n): 
ann w[myn] [xii].append(templw[xii,xjj]l) 
ann w-np.array (ann, w) 


def generate lw(trycount): 
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global ann w 
print u" 产生 权 值 初始 和 矩阵"， 
meanmin=1 
myann_w=ann_w 
alltry-30 
tryc-0 
while tryc«alltry: 
for i i in range(trycount): 
print *,.*; 
init annw() 
if abs(np.mean(np.array (ann w)))«meanmin: 
meanmin-abs (np.mean(np.array (ann w))) 
myann w-ann w 
tryc+=1 
if abs(np.mean(np.array (myann w)))«0.01:break 


ann w-myann w 
print 

print u" 权 值 矩阵 平均 :$£"$ (np. mean (np.array (ann w))) 
print u" E 4 IE 7r € :$£"$ (np.var(np.array (ann w))) 


generate l1w(15) 


下 面 ， 对 所 有 样本 数据 进行 反复 训练 ， 直 到 误差 降 到 期 望 值 为 止 。 单 个 样本 的 训练 过 程 
如 下 : 


def sample train(myx,myd,n,sigmoid func,delta sigfun): 


ir 一 个 样本 的 前 向 和 后 向 计算 I 


global ann, yi 

global ann, delta 
global ann w 

global ann, wjO0 

global ann y0 

global hidelevel count 
global alllevel count 
global learn r 

global train a 

global ann, oldw 


level-hidelevel count 
# 清空 yi 输出 信号 数组 
hidelevel-hidelevel count 
alllevel-alllevel count 
for i in xrange(0,alllevel): 
# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange(0,n): 
# 第 二 维 是 神经 元 
ann yi[il[jls0.0 
ann yi-np.array (ann yi) 
yi-ann yi 


ww ai bot. com [1 HD BL BL D. 


# 清空 delta 4 


第 9 章 数据 拟 合 案例 $e 


for i in xrange(0,hidelevel-1): 
for j in xrange(0,n): 


delta-ann delta 


ann, delta[il[j]l20.0 


# 保留 页 的 拷贝 ， 以 便 下 一 次 迭代 


ann, oldw-copy.deepcopy (ann w) 


oldw-ann oldw 


# 前 向 计算 


if isdebug:print u" 前 向 计算 中 . . .， 
# 对 输入 变量 进行 预 处 理 


myo-np.array([l) 


for nowlevel in xrange(0,alllevel): 
# 一 层 层 向 前 计算 
# 计算 诱导 局 部 域 


my y-[] 


myy-yi[nowlevel-1] 
myw-ann w[nowlevel-1] 
if nowlevel--0: 


# 第 一 层 隐 藏 层 
my. y-myx 
yi[nowlevel]-smy y 


elif nowlevel--(alllevel-1): 


# dE 
my y-o func(yi[nowlevel-1,:1len(myd)]) 
yi[nowlevel,:len(myd)]-smy y 


elif nowlevel-- (hidelevel-1): 


else: 


if isdebug: 


# 最 后 一 层 输 出 层 
for i in xrange(0,len(myd)): 
temp y-sigmoid func (np.dot(myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel,:len(myd)]-my y 


# 中 间 隐 藏 层 

for i in xrange(0,len(myy)): 
temp y-sigmoid func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 

yi[nowlevel]-my y 


print u'xx» KEEA I| 4 A dir B AB oem 


print yi 


print LU CO CK Ce ee e e e ke e e e Se e e ke e ke ke e e e ee e kk e n 


# 计算 误差 与 均 方 误差 

# 因为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结果 
myo-yi[hidelevel-1][:1len(myd)] 

myo end-yi[alllevel-i][:len(myd)] 

mymse-get e(myd,myo end) 
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# 反 向 计算 
# 输入 层 不 需要 计算 delta, 输出 层 不 需要 计算 W 
if isdebug:print u" 反 向 计算 中 ..." 


# 计算 delta 
for nowlevel in xrange(level-1,0,-1): 
if nowlevel--level-1: 
mydelta-delta[nowlevel] 
my n-len(myd) 
else: 
mydelta-delta[nowlevel-«1] 
my n-n 
myw-ann w[nowlevel] 
if nowlevel--level-1: 
# 输出 层 
mydelta-delta sigfun(myo,myd,None,None,None,None,None) 
## mydelta-mymse*myo 
elif nowlevel--level-2: 
# 输出 隐藏 层 的 前 一 层 ， 因 为 输出 结果 和 前 一 层 隐藏 层 的 神经 元 数目 可 能 存在 
不 一 致 的 情况 ， 所 以 单独 处 理 ， 传 输 相 当 于 输出 隐藏 层 的 神经 元 数目 的 数据 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level- 
1,my n,mydelta[:len(myd)],myw[:,:len(myd)]) 
else: 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level- 
1,my n,mydelta,myw) 


delta[nowlevel][:my n]-emydelta 
# 计算 与 更 新 权 值 W 
for nowlevel in xrange(level-1,0,-1): 
+ 每 个 层 的 权 值 不 一 样 
if nowlevel--level-1: 
# 输出 层 
my n-len (myd) 
mylearn r-learn r*0.8 
mytrain a-train a*1.8 
elif nowlevel--1: 
# 输入 层 
my n-len(myd) 
mylearn r-learn r*0.9 
mytrain a-train a*0.8 
else: 
8 其 他 层 
my n-n 
mylearn r-learn r 
mytrain a-train a 


pre level myy-yi[nowlevel-1] 
pretrain myww-oldw[nowlevel-1] 
pretrain myw-pretrain myww[:,:my n] 
# 第 二 个 调整 参数 


temp i-[] 
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for i in xrange(0,n): 
temp i.append([]l) 
for jj in xrange(0,my n): 
temp i[i].append(mylearn r*delta[nowlevel,jjl*pre 
level myy[il) 
temp rs2-np.array (temp i) 
temp rsl-mytrain a*pretrain myw 
# 总 调整 参数 
temp change-temp rsi-«temp rs2 
my ww-ann w[nowlevel-1] 
my ww[:,:my n]«-temp change 
if isdebug: 
print E 
print u"**x 权 值 矩阵 *kx*n 
print ann w 
print u"*** 梯度 矩阵 大 天 大 上 
print delta 
print 六 
return mymse 


经 过 43 次 训练 ， 误 差 率 降 到 了 0.02 以 下 ,训练 过 程 停止 ， 如 下 所 示 : 


------- 开始 第 41 次 训练 --------- 误差 为 : 0.026790 
— 开始 第 a2 次 训练 --------- RŽ X: 0.021292 
------- 开始 第 43 次 训练 --------- 误差 为 : 0.019350 


训练 成 功 ， 正 在 进行 检验 
最 后 ， 进 行 仿真 测试 。 下 面 是 一 个 样本 值 的 仿真 计算 过 程 。 


def simulate (myx, sigmoid_func,delta_sigfun): 
(6 一 个 样本 的 仿真 计算 
print u" 仿真 计算 中 " 
global ann yi 
global ann w 
global ann wjO 
global ann yO0 
global hidelevel count 
global alllevel count 
global d 
global mylnww 


myd-d[0] 
myx-np.array (myx) 
n-len (myx) 


# 清空 yi 输出 信号 数组 

hidelevel-hidelevel count 

alllevel-alllevel count 

for i in xrange(0,alllevel): 
# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange(0,n): 


# 第 二 维 是 神经 元 
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ann yi-np. 


yi-ann yi 


# 前 向 计算 


ann yi[il[jl-20.0 
array (ann yi) 


myy-np.array([]) 
for nowlevel in xrange(0,alllevel): 
# 一 层 层 向 前 计算 
# 计算 诱导 局 部 域 
my y-[] 
myy-yi[nowlevel-1] 
myw-ann. w[nowlevel-1] 
if nowlevel--0: 


# 第 一 层 隐 藏 层 
Iny y-myx 
yil[nowlevel]-my y 


elif nowlevel--(alllevel-1): 


# 线性 输出 层 
my y-o func(yi[nowlevel-1,:1len(myd)]) 
yil[nowlevel,:len(myd)]-smy y 


elif nowlevel-- (hidelevel-1): 


# 最 后 一 层 隐 茂 输 出 层 

for i in xrange(0,len(myd)): 
temp y-sigmoid func(np.dot(myw[:,i],myy)) 
my y.append(temp y) 


yi[nowlevel,:len(myd)]-my v 


else: 
# 中 间 隐 藏 层 
# 中 间 隐 藏 层 需要 加 上 偏 置 
for i in xrange(0,len(myy)): 
temp y-sigmoid func (np.dot(myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel]-my y 
if isdebug: 
print "=============" 
print u"*** AEAEE ex" 
print ann w 
print u'*** 输出 矩阵 ***" 
prit yi 
print "=============" 


return yi[alllevel-1,:1en(myd)] 


为 了 验证 效果 ,绘制 数 据 拟 合 效 果 和 误差 曲线 ， 如 图 9-28 所 示 。 图 9-28 的 上 部 是 拟 合 
效果 图 ， 目 标 值 和 预测 值 很 接近 ， 下 部 是 误差 曲线 ， 下 降 平滑 。 

2 ) 0.6sin(x) 孙 数 神经 网 络 拟 合 。 下 面 尝 试 实现 稍 复杂 数学 函数 的 拟 合 ， 比 如 
区 0.6sin00。 这 里 的 Python 实现 代码 与 前 面相 同 ， 因 此 ， 只 是 在 样本 数据 初始 化 代码 段 进行 


了 修改 。 示 例如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
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#code:myhaspl@qq .com 

#9-2.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 


isdebug=False 


#x 和 Gd 样本 初始 化 
train x -[] 
d-[]1 


for yb i in xrange(0,500): 
train x.append([np.random.rand()*4*np.pi-2*np.pi]) 
for yb i in xrange(0,500): 
d.append(np.sin(train x[yb i])*0.6) 


经 过 71 次 训练 ， 神 经 网 络 的 收敛 目标 达到 ， 也 就 是 说 误差 率 达到 了 期 望 值 。 


------- 开始 第 69 次 训练 --------- 误差 为 : 0.020464 
------- 开始 第 70 次 训练 --------- 误差 为 : 0.020673 
------- 开始 第 71 次 训练 --------- 误差 为 : 0.019350 


训练 成 功 ， 正 在 进行 检验 
图 9-29 为 程序 绘制 的 拟 合 效果 和 误差 曲线 图 。 


http://blog.csdn.net/myhaspl http://blog.csdn.net/myhaspl 
LÀ 
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图 9-28 sin 函数 神经 网 络 拟 合 图 9-29 ”0.6sin(x) 函数 神经 网 络 拟 合 ( 附 彩 图 ) 


3) 0.5sin(x)*0.5cos(x) 图 数 拟 合 。 前 两 个 例子 使 用 了 本 书 资 源 包 所 示 的 Python 代码 。 下 


面 使 用 Neurolab 库 实现 对 0.5sin(x)0.5cos(x) 的 拟 合 。 代 码 如 下 : 


*!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#9-3.py 

# 拟 合 sin*0.5+cos*0.5 
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import neurolab as nl 

import numpy as np 

import matplotlib.pyplot as plt 
isdebug-False 


ix 和 Gd 样本 初始 化 
train x -[] 
d-[] 


samplescount-1000 

myrndsmp-np.random.rand(samplescount) 

for yb i in xrange(0,samplescount): 
train, x.append([myrndsmp[yb i]*4*np.pi-2*np.pi]l) 

for yb i in xrange(0,samplescount): 
d.append(np.sin(train x[yb i])*0.5«np.cos(train x[yb i])*0.5) 


myinput-np.array(train x) 
mytarget-np.array (d) 


bpnet = nl.net.newff([[-2*np.pi, 2*np.pi]l, [5, 1]) 
err - bpnet.train(myinput, mytarget, epochs-800, show-100, goal-0.02) 


simd-[] 
for xn in xrange(0,len(train x)): 
simd.append(bpnet.sim([train x[xn]1])[01][01) 


temp x-[] 
temp y-simd 
temp d-[] 
i=0 
for mysamp in train_x: 
temp_x.append (mysamp[0] 
temp d.append(d[i][0]) 
i+=1 
x max-max(temp x) 
x min-min(temp x) 
y.max-max (max (temp y),max(d))-40.2 
y.minzmin(min(temp y),min(d))-0.2 


plt.xlabel(u"x") 
plt.xlim(x min, x max) 
plt.ylabel(u"y") 
plt.ylim(y min, y. max) 


lp x1 - temp x 

lp x2 - temp y 

lp d - temp d 
plt.plot(lp xl, 1p x2, 'r*') 
plt.plotí(lp x1,;lp.d,"'bo') 
plt.show() 


800 次 训练 后 ， 拟 合 效果 较 好 ， 如 图 9-30 
所 示 。 图 9-30  0.5sin(x)*0.5cos(x) 的 拟 合 
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K 9-3 是 钢 包 使 用 次 数 与 容积 实测 数据 ， 以 x 为 输入 , y 为 输出 ， 在 输入 与 输出 数据 之 间 


可 建立 非 线 性 关系 。 这 里 用 神经 网 络 建立 数据 拟 合 模 型 。 
下 面 尝试 应 用 神经 网 络 完成 以 上 数据 拟 合 任务 ， 

这 里 调用 Neurolab 库 ， 用 Python 实现 。 
首先 读 取 数 据 文件 。 代 码 如 下 : 


$!/usr/bin/env python 
4-*- coding: utf-8 -*- 
$code:myhasplGqq.com 
49-4.py 

import numpy as np 
import pylab as pl 
import neurolab as nl 


print u' 正在 处 理 中 ， 


ix 和 a 样本 初始 化 


Eraim x -[] 
d-[] 
f - open("cubage.csv") 
Cry 

f text - f.read( ) 
finally: 

f.close( ) 


x text-f text.split('WMn') 
for line i in xrange(0,len(x text)): 
line-x text[line i] 
if line i»1 and len(line)»50: 
train x.append([]) 
hdata-line.split(',"') 
train x[line i-2].append(float (hdata[0])) 
d.append([float(hdata[1])1]) 





使 用 次 数 x 容积 y 
2 106.42 
3 108.2 
4 109.58 
5 109.5 
7 110 
8 109.93 
10 110.49 
| 110.59 
14 110.6 
15 110.9 
16 110.7 
18 Tit 
19 111.2 


表 9-3” 钢 包 使 用 次 数 与 容积 实测 数据 


接着 ， 生 成 样本 数据 ， 一 般 情 况 下 ， 使 用 tanh 的 神经 网 络 输出 值 不 会 超过 1， 因 此 ， 设 


置 调整 系数 ， 把 输出 值 处 理 成 1 以 内 的 小 数 。 代 码 如 下 : 


myinput-np.array(train x) 
mytarget-np.array (d) 
mymax-np.max (d) 
tz-(0.1**(len(str(int(mymax)))))*5 
myinput-myinput 
mytarget-tz*mytarget 


最 后 进行 训练 ， 训 练 时 可 加 入 未 知 样本 进行 测试 。 


# 对 未 知 样本 进行 测试 
myinputtest-[[6],[9],[17],[20]] 
testsimd- bpnet.sim(myinputtest) 
end x-np.array (myinputtest) 
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testsimd/-tz 
end y-testsimd 


经 过 9 次 训练 ， 达 到 了 训练 目标 ,误差 为 1.9713682268777952e-05。 对 神经 网 络 输出 值 
应 用 调整 系数 ， 将 其 输出 值 恢复 到 原 有 的 数值 范围 。 

程序 生成 了 拟 合 效果 图 (如 图 9-31 上 部 所 示 ) 及 误差 曲线 图 (如 图 9-31 下 部 所 示 )。 同 
时 使 用 在 样本 空间 中 没有 出 现 的 部 分 测试 数据 6、9、17、20 作为 神经 网 络 的 输入 ， 验 证 神 


经 网 络 的 训练 效果 和 拟 合 效 果 。 图 中 实心 圆圈 为 未 知 测试 数据 ， 即 : 使 用 次 数 为 6、9、17、 
20 时 容积 的 预测 值 ， 星 号 为 样本 数据 。 
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图 9-31 钢 包 使 用 次 数 与 容积 的 神经 网 络 拟 合 


从 图 9-31 的 拟 合 效果 来 看 ， 样 本 数据 非常 接近 神经 网 络 拟 合 的 曲线 ,说 明 曲 线 较 好 地 
反映 了 随 着 使 用 次 数 的 增加 ， 容 积 的 增长 趋势 。 此 外 ， 对 在 样本 中 没 出 现 的 钢 包 使 用 次 数 6、 
9. 17, 20, 与 之 相关 的 容积 预测 效果 不 错 。 

完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#9-4.py 
import numpy as np 
import pylab as pl 
import neurolab as nl 
print u' 正在 处 理 中 ， 
#x 和 a 样本 初始 化 
train x s[] 
d-[] 
f - open("cubage.csv") 
try: 

f text - f.read( ) 
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finally: 


f.close( ) 


x text-f text.split('n') 


for 


line i in xrange(0,len(x text)): 

line-x text[line i] 

if line i»1 and len(line)»50: 
train x.append([l) 
hdata-line.split(',") 


train x[line i-2].append(float(hdata[0])) 


d.append([float(hdata[1])]) 


myinput-np.array(train x) 
mytarget-np.array (d) 
mymax-np.max(d) 
tz-(0.1**(len(str(int (mymax)))))*5 
myinput-myinput 
mytarget-tz*mytarget 
netminmax-[0,np.max(myinput)] 
print u'\n 正 在 建立 神经 网 络 ' 


bpnet = nl.net.newff([netminmax], [5, 1]) 


print u'\n 训练 神经 网 络 中 . . .， 


err 


= bpnet.train(myinput, mytarget, epochs-800, 


if err[len(err)-1]50.0001: 


else: 


print u'\n 训练 神经 网 络 失败 ...\n' 





print u'\n 训练 神经 网 络 完毕 n 
pl.subplot (211) 
pl.plot(err) 
pl.xlabel('Epoch number') 
pl.ylabel('error (default SSE)') 
# 对 样本 进行 测试 

simd- bpnet.sim(myinput) 
temp x-myinput 

temp d-mytarget 

simd/-tz 

temp. y-simd 

temp d/-tz 


# 对 未 知 样本 进行 测试 
myinputtest=[[6], [9], [17], [20]] 
testsimd- bpnet.sim(myinputtest) 
end x-np.array (myinputtest) 
testsimd/-tz 

end y-testsimd 


x max-np.max(temp x) 
x min-np.min(temp x)-5 
y .max-np.max(temp y)-42 
y min-np.min(temp y) 


pl.subplot (212) 
pl.xlabel(u"'x") 
pl.xlim(x min, x max) 
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pl.ylabel (u"y") 

pl.ylim(y min, y max) 

lp x1 = temp x 

lp x2-temp y 

lp d = temp d 
pl.plot(lp xl, lp x4, 'g-"') 
pl.plot(end x, end y, 'ro') 
pi.plot[(ip x1,1p.d, 'b*') 
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9.2.1 WAV 声音 文件 


声音 是 由 物体 的 机 械 振动 而 形成 的 。 用 鼓 棒 贡 击 鼓 皮 ， 于 是 鼓 皮 发 生 振 动 而 发 声 ; kE 
时 笛 腔 内 的 空气 柱 发 生 振动 而 发 声 ; 把 音频 电流 送 和 扬声器， 扬声器 的 纸 盆 发 生 振 动 而 发 声 。 
发 生 声音 的 振动 源 叫 作 “ 声 源 "， 由 声 源 发 出 的 声音 ， 必 须 通 过 媒质 才能 传送 到 我 们 的 耳 条 
中 。 空 气 是 最 常见 的 媒质 ， 如 水 、 金 属 、 木 材 等 媒质 都 能 传播 声音 。 

WAV 声音 文件 为 Microsoft 公 司 开 发 的 一 种 记录 声音 的 文件 格式 ， 它 符合 RIFF 
(Resource Interchange File Format) 文件 规范 ， 音 频 格 式 未 经 过 压缩 ， 在 音质 方面 不 会 出 现 失 
真 的 情况 。 它 以 指定 频率 采样 ， 比 如 每 秒 采样 44100 次 。 在 采集 声音 的 振动 状态 时 ， 它 会 使 
用 模 / 数 转换 器 (A/D) 以 每 秒 上 万 次 的 速率 对 声波 进行 采样 ， 每 一 次 采样 都 记录 下 了 原始 模 
拟 声 波 在 某 一 时 刻 的 状态 ,采样 的 结果 即 为 样本 。 将 一 串 样 本 连接 起 来 ， 就 可 以 描述 一 段 声 
波 了 。 


9.2.2 ”线性 滤波 算法 过 程 

神经 网 络 既 可 以 进行 函数 拟 合 ， 也 能 对 波形 数据 进行 拟 合 。 下 面 将 输入 x 作为 函数 的 自 
变量 ,将 神经 网 络 输出 的 数据 y 作 为 函数 tx) 的 输出 ， 然 后 应 用 该 拟 合 功能 进行 一 个 线性 滤 
波 ， 以 实现 去 除 周围 环境 的 噪音 ， 使 说 话 声音 更 清楚 。 

下 面 以 从 含有 音乐 的 语音 中 去 除 背 景 音乐 为 例 进 行 讲解 。 具 体 算法 过 程 如 下 : 

1) 读 取 该 机 器 学 习 算 法 必需 的 两 个 素材 文件 : 含有 背景 音乐 的 语音 和 部 分 背景 音乐 。 
细心 的 读者 一 定 会 问 ， 既 然 已 经 有 背景 音乐 这 个 文件 ， 那 么 直接 从 语音 的 波形 数据 减 去 
背景 音乐 ， 这 样 就 完成 了 背景 音乐 的 过 滤 。 没 错 ， 但 是 不 能 直接 减 去 源 背 景 音乐 。 原 因 
如 下 : 

在 对 声波 进行 采样 时 ， 虽 然 同 时 对 背景 音乐 和 语音 进行 了 采样 ， 但 采样 过 程 很 可 能 会 被 
周边 的 音源 、 采 样 音量 等 很 多 因素 干扰 ， 导 致 采样 形成 的 背景 音乐 波形 并 不 是 源 背 景 音乐 的 
波形 。 如 果 直 接 使 用 源 背 景 音乐 进行 减 ， 将 会 导致 滤波 后 的 语音 文件 有 杂音 且 部 分 失真 。 我 
们 要 做 的 是 干净 地 将 背景 音乐 剔除 。 

2 ) 采样 器 先 采 样 一 小 段 背景 音乐 ， 然 后 再 采集 语音 文件 。 其 好 处 在 于 : 生成 了 经 过 采 
样 后 的 背景 音乐 样本 ， 这 些 样 本 就 是 神经 网 络 拟 合 训练 样本 中 的 目标 输出 值 。 
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3) 用 神经 网 络 进行 训练 ， 输 入 样本 为 源 背 景 音乐 中 相当 于 采样 背景 音乐 长 度 的 波形 数 
据 ， 输 出 目标 为 采样 器 开始 采集 的 小 段 背 景 音乐 波形 数据 。 

4 ) 训练 达到 期 望 误 差 率 或 达到 最 大 训练 次 数 后 ， 将 源 背景 音乐 作为 未 知 样本 数据 送 入 
神经 网 络 ， 其 预测 输出 就 是 拟 合 后 的 采样 背景 音乐 。 

5) 将 混杂 有 背景 音乐 的 语音 文件 波形 数据 直接 减 去 拟 合 后 的 采样 背景 音乐 ， 得 到 去 除 
背景 音乐 的 纯净 语音 。 

自 适应 线性 滤波 器 的 工作 原理 也 是 如 此 : 先 采集 一 段 背景 噪声 ; 然后 用 噪声 数据 进行 拟 
合 ， 之 后 在 噪声 数据 和 背景 噪声 之 间 建 立 了 一 种 映射 关系 ; 最 后 ， 人 可 以 通过 该 系统 传送 语 
音 ， 说 话 周 围 环境 产生 的 背景 噪声 将 被 过 滤 。 


9.2.3 滤波 Python 实现 


下 面 用 Python 实现 上 述 步骤 。 
1) 读 取 声音 素材 ， 代 码 如 下 : 


4$!/usr/bin/env python 
4-*- coding: utf-8 -*- 
#code:myhaspl@qg.com 
#9-5 .py 

import numpy as np 
import wave 

import pylab as pl 
import copy 

print 'working...' 


print "read wav data...." 

err-[] 

# 打开 WAV 文档 

f = wave.open(r"speak.wav", "rb") 

fo - wave.open(r"wait jg.wav", "wb") 
fi-wave.open(r"back.wav", "rb") 
fend-wave.open(r"end jg.wav", "wb") 


8 读 取 波形 数据 

# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params - f.getparams() 

nchannels, sampwidth, framerate, nframes - params[:4] 

str data = f.readframes (nframes) 


fi params-fi.getparams() 
fi nframes - fi params[3] 
fi str data-fi.readframes(fi nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update wav data...." 

wave data - np.fromstring(str data, dtype-np.short) 

fi wave data- np.fromstring(fi str data, dtype-np.short) 
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2) 复制 波形 ， 在 一 个 随机 的 基数 基础 上 ， 将 背景 音乐 的 振幅 (音量 ) 稍微 变动 一 下 ， 并 
与 语音 合并 。 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合用 。 


emptywdata-np.zeros(framerate, dtype-np.short) 

new wave data-np.hstack((emptywdata,wave data,wave data,wave data,wave 
data,wave data,wave data,wave data,wave data)) 

wave data -copy.deepcopy (new wave data) 

nframes*-8 

nframes-«-framerate/2 

temp wavedata-np.hstack((fi wave data,fi wave data))[:len(new wave data)] 
backrnd-np.random.rand(len(new wave data))*10-5 
backbase-np.random.rand()*241 

temp wavedata-temp wavedata*backbase«backrnd 

new wave data-temp wavedata-«new wave data 


new wave data-np.array(new wave data) 
new wave data -new wave data.astype(wave data.dtype) 
new str data-new wave data.tostring() 


3) 拟 合 数据 ， 去 除 背 景 音 乐 。 


jg wave data-copy.deepcopy (new wave data) 

jg temp wavedata-np.hstack((fi wave data,fi wave data))[:len(new wave. data)] 
jg temp wavedata-jg temp wavedata[:len(new wave data)]*w[1]«w[0] 

jg. wave data-jg wave data-jg temp wavedata 


for jg i in xrange(0,len(jg wave data)): 
if abs(jg wave data[jg i])«500: 
jg. wave data[jg il-0 
jg wave data[:framerate]z-0 


jg wave data -jg wave data.astype(wave data.dtype) 
jg. str data-jg wave data.tostring() 


print "save output wav...." 

fend.setnchannels (nchannels) 
fend.setframerate(framerate) 
fend.setsampwidth(sampwidth) 
fend.writeframes(jg str data) 


完整 的 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
d$code:myhaspl8qg.com 
#9-5.py 

import numpy as np 
import wave 

import pylab as pl 
import copy 

print 'working...' 


print "read wav data...." 
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err-[] 

# 打开 WAV 文档 

f = wave.open(r"speak.wav", "rb") 

fo - wave.open(r"wait jg.wav", "wb") 
fi-wave.open(r"back.wav", "rb") 
fend-wave.open(r"end jg.wav", "wb") 


# 读 取 波形 数据 

# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 

nchannels, sampwidth, framerate, nframes - params[:4] 

str data - f.readframes (nframes) 


fi params-fi.getparams() 
fi nframes - fi params[3] 
fi str data-fi.readframes(fi nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update wav data...." 

wave data - np.fromstring(str data, dtype-np.short) 

fi wave data- np.fromstring(fi str data, dtype-np.short) 


# 复制 并 将 背景 音乐 的 振幅 ( 音量 ) 在 一 个 随机 的 基数 基础 上 稍微 变动 后 ， 与 语音 合 
# 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线 性 神经 网 络 拟 合用 


emptywdata-np.zeros(framerate, dtype-np.short) 


* 
hed 
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new wave data-np.hstack((emptywdata,wave data,wave data,wave data,wave 


data,wave data,wave data,wave data,wave data)) 
wave data -copy.deepcopy (new wave data) 
nframes*-8 

nframes-«-framerate/2 


temp wavedata-np.hstack((fi wave data,fi wave data))[:len(new wave data)] 


backrnd-np.random.rand(len(new wave data))*10-5 
backbase-np.random.rand()*241 

temp wavedata-temp wavedata*backbase-«backrnd 
new wave data-temp wavedata-«new wave data 


new wave data-np.array (new wave data) 

new wave data -new wave data.astype(wave data.dtype) 
new str data-new wave data.tostring() 

# 写 波 形 数据 参数 

print "save mix wav files...." 

fo.setnchannels (nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes (new str data) 


# A PEE VERI REOR YR 
best 

a025e-1 

a-0.0 

És1.85 

x=[] 

d-[] 
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iiz0 
for audio i in xrange(0,framerate/2): 
if fi wave data[audio i]!z0.: 
x.append([]) 
x[ii].append(1) 
x[ii].append(fi, wave data[audio. i]) 
d.append (new. wave data[audio i]) 
li--1 
if ii»100: 
break 
x-np.array(x) 
d-np.array(d) 


w-np.random.rand(2)*np.mean(x)snp.array([b,0]) 
expect e-15 
maxtrycount-10000 
mycount-0 
def sgn(v): 
return v 

def get v(myw,myx): 

return sgní(np.dot (myw.T,myx)) 
def neww(oldw,myd,myx,a): 

mye-get e(oldw,myx,myd) 

a=a0/ (1+float (mycount)/r) 

return (oldw«a*mye*myx,mye) 
def get e(myw,myx,myd): 

return myd-get v (myw, myx) 


while True: 
mye-0. 
i-0 
for »xn 1m xs 
w,e-neww(w,d[i],xn,a) 
i+=1 
mye+=pow(e,2) 
mye=np. sqrt (mye) 
mycount+=1 
err.append (mye) 
print u" 第 $d 次 调整 后 的 权 值 : "smycount 
print w 
print u" KZ: $f"$mye 
if abs(mye)«expect e or mycount»maxtrycount:break 


print "w:[$f,$f£]"$(w[0],w[1]) 


88 WDERXWESg 

jg wave data-copy.deepcopy (new wave data) 

jg temp wavedata-np.hstack((fi wave data,fi wave data))[:len(new wave data)] 
jg temp wavedata-jg temp wavedata[:len(new wave data)]*w[1]«w[0] 

jg wave data-jg wave data-jg temp wavedata 


for jg i in xrange(0,len(jg wave data)): 
if abs(jg wave. data[jg. 11)«500: 
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jg_wave_dataljg_i]=0 
jg.wave data[:framerate]-0 


jg .wave data -jg wave data.astype(wave data.dtype) 
jg.str data-jg wave data.tostring() 


print "save output wav...." 
fend.setnchannels (nchannels) 
fend.setframerate(framerate) 
fend.setsampwidth (sampwidth) 
fend.writeframes(jg str data) 


# 绘制 波形 
time = np.arange(0, nframes) * (1.0 / framerate) 
wave data.shape - -1, 2 


wave data - wave data.T 


pl.subplot (321) 

pl.plot(time, wave data[0]) 
pl.subplot (322) 

pl.plot(time, wave data[1], c-"g") 
pl.xlabel("time (seconds)") 


绘制 波形 
new wave data.shape = -1, 2 
new wave data -new wave data.T 


pl.subplot (323) 
pl.plot(time,new wave data[0]) 
pl.subplot (324) 

pl.plot(time, new wave data[1], c-"g") 
pl.xlabel("time (seconds)") 

pl.show() 


绘制 波形 
jg wave data.shape = -1, 2 
jg wave data -jg wave data.T 


pl.subplot (325) 

pl.plot (time,jg wave, data[0]) 
pl.subplot (326) 

pl.plot(time, jg wave data[1], c-"g") 
pl.xlabel("time (seconds)") 

pl.show() 


如 图 9-32 所 示 是 程序 运行 完毕 后 生成 的 效果 图 。 最 上 面 的 两 张 图 是 无 背景 音乐 语音 
件 的 两 个 声 道 的 波形 图 ， 中 间 是 混杂 了 背景 音乐 的 语音 文件 ， 下 面 是 经 过 线性 滤波 后 生成 的 
纯净 语音 文件 。 

ye 9-32 可 看 出 ， 线 性 滤波 的 效果 是 不 错 的 。 读 者 可 以 从 本 书 的 资源 包 中 下 载 相关 
程序 ， 执 行 后 ， 用 音箱 播放 滤波 后 的 语音 ， 听 听 效 果 ， 是 否 还 能 听 出 背景 音乐 。 
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图 9-32 ”线性 滤波 效果 


9.3 数据 或 曲线 平滑 


9.3.4 平滑 概述 
在 介绍 平滑 的 概念 之 前 ， 先 来 看 一 组 数据 ， 表 9-4 是 某 虚拟 商品 X 连续 21 天 的 销量 。 


表 9-4 虚拟 商品 X 连续 21 天 的 销量 
x o Tl ESL 9 Do s epe s Ds psp ps ps po 
imt | va ps | «use iar [roe [9s [vss [22 | i [s on ns [s [a6 [222 [187 [9s [s [no [1 


现 绘制 该 虚拟 商品 X 的 销量 图 (如 图 9-33 所 示 )，R 代码 如 下 : 


———Á M ——— 

> plot(x,type-"o",col-"blue",xlab-" X ",ylab-" 销量 ") 

初步 观察 图 9-33， 曲 线 波 折 较 多 ， 销 量 不 稳定 ， 仔 细 观 察 才 能 发 现 销量 在 整体 走高 。 再 
观察 图 9-34， 它 是 将 图 9-33 平滑 处 理 后 生成 的 销量 走势 图 。 

观察 图 9-34， 曲 线 波动 较 小 ， 整 体 增长 趋势 一 目 了 然 ， 销 量 连续 经 过 了 两 次 攀升 ， 虽 然 
每 次 攀升 后 有 少量 回落 ， 但 销量 仍 在 增长 中 。 

现在 正式 介绍 平滑 的 概念 ， 数 据 或 曲线 平滑 是 通过 建立 近似 函数 来 发 现 数据 中 的 主要 模 
式 的 ， 去 除 噪音 、 结 构 细 节 或 瞬时 现象 ， 减 少 不 必 要 的 数据 波动 ， 从 而 实现 数据 集 的 平滑 。 
平滑 过 程 中 会 修改 数据 点 ， 降 低 由 噪音 数据 点 产生 的 影响 ， 而 低 于 毗邻 数据 点 的 点 则 被 提 
升 ， 从 而 得 到 一 个 更 平滑 的 数据 序列 。 
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图 9-33 ”虚拟 商品 的 销量 图 图 9-34 经 过 平滑 处 理 后 的 销量 走势 图 


9.3.2 ”移动 平均 


移动 平均 (Moving Average，MA)， 又 称 “ 移 动 平 均线 ”， 简 称 均线 ， 是 数据 分 析 中 一 种 
分 析 时 间 序 列 数据 的 工具 。 最 常见 的 是 利用 股价 、 交 易 量 等 变量 计算 出 移动 平均 。 移 动 平均 
可 抚 平 短 期 波动 ， 反 映 出 长 期 趋势 或 周期 ， 在 数学 上 ， 移 动 平均 可 视 为 一 种 卷 积 。 


1. 简单 移动 平均 

简单 移动 平均 是 某 变 量 之 前 n 个 数值 的 未 作 加 权 的 算术 平均 。 比 如 ， 设 某 股票 的 预测 收 
市 价 为 SM4 ， 该 股票 前 日 的 收市 价 为 p 至 p;， 则 预测 收市 价 的 计算 方式 如 下 : 
(ptpntetp 
i n 

上 述 公式 的 计算 效率 较 高 ， 原 因 在 于 : 计算 连续 的 数值 时 ， 若 有 一 个 新 的 数值 加 入 ， 可 
将 一 个 旧 的 数值 剔 出 ， 无 须 每 次 都 重新 将 数值 逐个 加 起 来 ， 如 下 面 的 公式 所 示 : 


SMA 


SMAqu47SMAm,— EL * EN. 
n n 


ERAP, PIAJ filter 函数 进行 线性 过 滤 ， 实 现 简单 移动 平均 算法 ， 使 用 时 需要 注 
意 以 下 事项 : 

1) filter 参数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 /n,n 为 前 4 期 。 

2) method 参数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参数 设置 为 1， 表 
示 使 用 单 边 卷 积 。 

3 ) filter 函数 对 数据 进行 预测 时 ， 参 与 计算 的 前 期 数据 不 但 包括 前 n-1 期 的 数据 ， 还 包 
括 当 前 数据 ， 预 测 值 的 计算 公式 如 下 : 
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yr 0*x[087c2]*x[771]17[]*x [172] 2-1 ]*x [i7 (271)] 
以 上 公式 中 ，t 为 时 间 ，/ 为 该 时 间 点 数据 的 权重 值 。 

以 表 9-4 所 示 的 义 商 品 的 销量 为 例 ， 设 当前 时 间 点 1 为 3， 期 数 n 为 2， 权 重 为 /2 (Bp 
0.5), x 为 商品 销量 数组 ， 提 取 前 n 期 的 数据 ， 预 测 当 前 时 间 点 的 平滑 值 ， 其 计算 方式 如 下 : 
y[3]=x[2] X 0.5+x[3] X 0.5=123 X 0.5+54 x 0.5=88.5 

下 面 编 写 R 代码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-35 所 示 。 


> 
x«-c(12,123,54,176,121,134,198,155,122,111, 133,244, 278, 232, 267, 222,187,193,245, 110; 132) 
> plot (x,type-"o",col-z"blue",xlab-" X ",ylab-" 销量 ") 

> y- filter(x, filter-rep(1/3,3),method = "convolution",sides-1) 

> lines(y,col-"red") 

» points(y,pch-8,col-"red") 


观察 图 9-35, 平滑 效果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 
点 表示 原 数 据 。 上 述 R 程序 通过 将 fliter 参数 设 为 rep(1/3,3)， 使 每 个 时 间 点 的 权 值 均 为 1/3, 
且 前 期 数据 取 前 3 天 的 数据 ， 从 而 生成 当天 的 平滑 数据 值 。 


2. 加 权 移 动 平均 

加 权 移 动 平均 给 固定 跨越 期 限 内 的 每 个 变量 值 以 不 相等 的 权重 ， 其 原理 是 : 历史 各 期 产 
品 需 求 的 数据 信息 对 预测 未 来 期 内 的 需求 量 的 作用 是 不 一 样 的 ， 除 了 以 n 为 周期 的 周期 性 变 
化 外 ， 远 离 目 标 期 的 变量 值 的 影响 力 相 对 较 低 ， 故 应 给 予 较 低 的 权重 。 简 单 的 移动 平均 法 实 
质 上 也 是 加 权 移 动 平均 ， 只 不 过 它 是 各 元 素 的 权重 都 相等 。 

加 权 移 动 平均 的 计算 公式 如 下 : 

y[t-1]»ai X x[t-1]*az X x[t-2]+a; X x[t-3]- a, X x[t-n] 

上 式 中 ，a 为 权 值 ，x 为 数据 ，? 为 预测 值 ，n 为 参与 计算 的 数据 期 数 ， 且 权 值 之 和 为 1。 

在 RR 语言 中 ， 可 调用 filter 函数 进行 线性 过 滤 ， 实 现 加 权 移动 平均 算法 ,使 用 时 需要 注 
意 以 下 事项 : 

口 filter 参数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 的 


各 自 权重 。 
O method 参数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参数 设置 为 1， 表 
示 使 用 单 边 卷 积 。 


O filter 函数 对 数据 进行 预测 时 ， 参 与 计算 的 前 期 数据 不 但 包括 前 n-1 期 的 数据 ， 还 包 
括 当前 数据 ， 预 测 值 的 计算 公式 如 下 : 
ASA] Xx x[0]*/[2] X xf- HA3] X x[t72])7 7718-71] Xx[t-(n—1)] 
以 上 公式 中 ,1 为 时 间 ， /为 该 时 间 点 数据 的 权重 值 。 
以 表 9-4 所 示 的 X 商品 的 销量 为 例 ， 设 当前 时 间 点 1 为 5， 期 数 n 为 3， 当 前 时 间 点 权 
重 为 0.65， 前 1 个 时 间 点 的 权重 为 0.25， 前 2 个 时 间 点 的 权重 为 0.1, x 为 商品 销量 数组 ， 提 
Mg n 期 的 数据 ， 预 测 当 前 时 间 点 的 平滑 值 ， 其 计算 方式 如 下 : 
y[5]=x[5] X 0.65+x[4] X 0.25+x[3] X 0.1=121 X 0.65+176 X 0.25+54 X 0.1=128.05 
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下 面 编写 R 代码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-36 所 示 。 


> 
x«-c(12,123,54,176,121,134,198,155,122,111,133,244, 278, 232, 267, 222,187, 193, 245,110, 132) 

> plot(x,type-"o",col-"blue",xlab-" X ",ylab-" 销量 ") 

» y- filter(x, filter-c(0.65,0.25,0.1),method - "convolution",sides-1) 

» lines(y,col-"red") 

» points(y,pch-8,col-"red") 


观察 图 9-36， 平 滑 效果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 以 及 空心 圆 


点 表示 原 数据 。 上 述 R 程序 通过 将 filter 参数 设 为 c(0.65,0.25,0.1)， 将 从 预测 时 间 点 开始 依次 
向 前 的 3 个 时 间 点 的 权 值 分 别 设置 为 0.65、0.25、0.1， 从 而 生成 当天 的 平滑 数据 值 。 


销量 


100 150 200 


50 

















图 9-35 简单 移动 平均 图 9-36 加权 移动 平均 


此 外 ,还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 5 个 时 间 点 的 平滑 值 是 128.05， 与 


前 面 手 工 计算 的 一 致 。 


-y 
Time Series: 
Start = 1 
End - 21 
Frequency - 1 
[1] NA NA (67.05 140.20 128.05 134.95 174.30 163.65 137.85 118.15 
[11] 126.40 202.95 255.00 244.70 259.35 234.25 203.75 194.40 226.20 152.05 
[214 137.80 


3. 双边 卷 积 
双边 卷 积 算法 与 简单 移动 平均 法 、 加 权 移 动 平均 法 相似 ， 不 同 之 处 在 于 其 计算 平均 值 的 


依据 不 仅 包括 以 前 时 间 点 的 数据 ， 而 且 还 包括 以 后 时 间 点 的 数据 。 


在 RR 语言 中 ， 可 调用 filter 函数 进行 线性 过 滤 ， 实 现 双 边 卷 积 算法 ， 使 用 时 需要 注意 以 


下 事项 : 
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口 filter 参数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 各 


自 的 权重 。 
D method 参数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参数 设置 为 2， 表 
示 使 用 双边 卷 积 。 


O filter 函数 对 数据 进行 预测 时 ， 参 与 计算 的 数据 不 但 包括 前 n-1 期 的 数据 和 当前 数据 ， 
还 包括 以 后 时 间 点 的 数据 。 以 期 数 是 5 为 例 ， 计 算 当 前 时 间 点 1 的 预测 值 y pr], AS 
如 下 : 

VASAL] xt2THA2] X xp 119713] X x[r]914] X x[t—11+AS] X x[t-2] 

以 上 公式 中 ,zt 为 时 间 ，j/ 为 该 时 间 点 数据 的 权重 值 。 

以 表 9-4 所 示 的 义 商 品 的 销量 为 例 ， 设 当前 时 间 点 1 为 5， 期 数 n 为 5， 当 前 时 间 点 权 
重 为 0.5， 前 1 个 时 间 点 的 权重 为 0.15， 前 2 个 时 间 点 的 权重 为 0.1， 后 1 个 时 间 点 的 权重 为 
0.15， 后 2 个 时 间 点 的 权重 为 0.1，x 为 商品 销量 数组 ， 提 取 前 n-2 期 、 后 n-2 期 及 第 nn 期 的 
数据 ， 预 测 当 前 时 间 点 的 平滑 值 ， 计 算 方 式 如 下 : 

y[5]=x[7] X 0.1+x[6] X 0.15+x[5] X 0.5+x[4] X 0.15+x[3] X 0.1 
=198 x 0.1+134 X 0.15+121 x 0.5176 X 0.1554 X 0.1 
z132:2 

下 面 编写 R 代码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-37 所 示 。 

TERCER TT TTC M 

> plot(x,type-"o",col-"blue",xlab-" X ",ylab-" 销量 ") 

y= filter(x, filter-c(0.1,0.15,0.5,0.15,0.1),method = "convolution",sides-2) 


= 
> lines(y,col-"red") 
» points(y,pch-8,col-"red") 


观察 图 9-37， 平 滑 效果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 点 
表示 原 数据 。 上 述 R 程序 通过 将 filter 参数 设 为 c(0.1,0.15,0.5,0.15,0.1)， 将 从 预测 时 间 点 后 2 
个 时 间 点 、 当 前 时 间 点 及 之 前 2 个 时 间 点 的 权 值 分 别 设置 为 0.1、0.15、0.5、0.15、0.1， 从 
而 生成 当天 的 平滑 数据 值 。 

此 外 ,还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 5 个 时 间 点 的 平滑 值 是 132.20, 与 
前 面 手工 计算 的 一 致 。 


> c(y) 
[1] NA NA 85.15 139.95 132.20 147.95 166.65 150.00 134.00 133.65 
159.75 217.95 250.40 244.35 248.10 221.60 206.95 
[18] 194.50 199.85 NA NA 


9.3.3 ”递归 线性 过 滤 


递归 线性 过 滤 相 当 于 自 回归 法 ,在 及 语言 中 ， 可 调用 filter 函数 进行 递归 线性 过 滤 ， 使 
用 时 需要 注意 以 下 事项 : 
O filter 参数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 各 
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自 的 权重 。 
O method 参数 指定 为 recursive， 表 示 使 用 递归 线性 过 滤 。 
O filter 函数 对 数据 进行 预测 时 ， 参 与 计算 的 数据 包括 当前 时 间 点 的 数据 和 以 前 n-1 个 
时 间 点 的 预测 值 。 当 前 时 间 点 上 的 预测 值 y[4] 的 计算 公式 如 下 : 
yix A] X yp] p.21] X [E 9-1] 
以 上 公式 中 ,1 为 时 间 , AAE SECUS EE. 
以 表 9-4 所 示 的 义 商 品 的 销量 为 例 ， 设 当前 时 间 点 1 为 3， 期 数 为 2， 前 1 个 时 间 点 
的 权重 为 0.1， 前 2 个 时 间 点 的 权重 为 0.05，x 为 商品 销量 数组 ， 提 取 前 n-2 期 预测 值 y 及 第 
n 期 值 x， 预 测 当 前 时 间 点 的 平滑 值 ， 计 算 方 式 如 下 : 
y[1]=x[1]=12 
y[2]=x[2]+x[1]*0.1=124.2 
y[3]=x[3]+y[2]*0.1+y[1]*0.05 
=54+124.2*0.1+12*0.05 
=67.02 
下 面 编写 R 代码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-38 所 示 。 
E EA E TE E EEA E E A E UEM 
> plot(x,type-"o",col-"blue",xlab-" X ",ylab-" 4E ",ylim-c(1,400)) 
yc-filter(x, filter-c(0.1,0.05),method = "recursive") 


E 
» lines(y,col-"red") 
» points(y,pch-8,col-"red") 


观察 图 9-38， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 点 表示 原 数 据 。 
上 述 及 程序 通过 将 filter 参数 设 为 c(0.1,0.05), 将 以 前 2 个 时 间 点 的 权 值 分 别 设置 为 0.1 和 
0.05， 从 而 生成 当天 的 平滑 数据 值 。 
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此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 3 个 时 间 点 的 平滑 值 是 67.02， 与 
前 面 手工 计算 的 一 致 。 

> cíy) 

[1] 12.0000 124.2000 67.0200 188.9120 143.2422 157.7698 220.9391 184.9824 


[9] 151.5452 135.4036 154.1176 266.1819 312.3241 276.5415 310.2704 266.8541 
[17] 229.1989 229.2626 279.3862 149.4018 160.9095 


9.3.4 “指数 平滑 


指数 平滑 (Exponential Smoothing, ES) 法 是 布朗 (Robert G.Brown) 所 提出 的 ， 布 朗 认 
为 时 间 序 列 的 态势 具有 稳定 性 或 规则 性 ， 所 以 时 间 序 列 可 被 合理 地 顺势 推 延 ， 最 近 的 过 去 数 
据 趋势 ， 在 某 种 程度 上 会 持续 到 未 来 ， 因 此 将 较 大 的 权重 放 在 最 近 的 资料 上 。 指 数 平滑 法 是 
在 移动 平均 法 的 基础 上 发 展 起 来 的 一 种 时 间 序 列 分 析 预 测 法 ， 它 是 通过 计算 指数 平滑 值 ， 配 
合 一 定 的 时 间 序 列 预 测 模型 对 现象 的 未 来 进行 预测 ， 其 原理 是 任 一 期 的 指数 平滑 值 都 是 本 期 
实际 观察 值 与 前 一 期 指数 平滑 值 的 加 权 平 均 。 

根据 平滑 次 数 不 同 ， 指 数 平滑 法 分 为 : 一 次 指数 平滑 法 、 二 次 指数 平滑 法 和 三 次 指数 平滑 
法 等 。 一 次 指数 平滑 法 是 根据 前 期 的 实测 数 和 预测 数 ， 以 一 次 平滑 系数 为 权重 ， 进 行 加 权 平 均 ， 
从 而 预测 未 来 时 间 趋 势 的 方法 ; 二 次 指数 平滑 法 是 对 一 次 指数 平滑 的 再 平滑 ， 它 保留 并 更 新 了 
平滑 后 的 信号 及 平滑 后 的 趋势 ， 它 增加 了 二 次 趋势 平滑 系数 ; 三 次 指数 平滑 法 是 在 二 次 平滑 的 
基础 上 再 添加 第 三 个 量 ， 用 来 描述 周期 性 ， 它 是 二 次 平滑 的 再 平滑 ， 增 加 了 三 次 周期 平滑 系数 。 

1. 二 次 指数 平滑 

在 有 语言 中 ， 可 调用 HoltWinters 清 数 进行 二 次 指数 平滑 ,使 用 时 需要 注意 以 下 事项 : 

O alpha 参数 指定 一 次 平滑 系数 ，beta 参数 指定 二 次 平滑 系数 ，gamma 参数 设置 为 

FALSE 表示 不 进行 三 次 平滑 ， 如 果 不 指定 平滑 系数 ，HoltWinters 函数 将 自动 计算 最 


优 系 数 。 
O 在 调用 HoltWinters 函数 前 ， 需 要 使 用 ts 函数 将 数据 转化 为 时 间 序 列 向 量 。ts 函数 主 
要 有 以 下 参数 : 


e Frequency: 周期 频率 
e Start: 开始 时 间 点 
下 面 编 写 R 代码 ， 对 表 9-5 所 示 的 虚拟 商品 Y 的 销量 数据 进行 平滑 。 


表 9-5 虚拟 商品 Y 连续 21 天 的 销量 
TTT TTT ol sp ppp pgs ppp psp] 
wi [ e [iss se [e i [a] 9 [15s [ 2 [1 [63 [22a [7s [252 [6r [222 [197 ss [1 


首先 ， 载 人 数据 ， 然 后 转 成 时 间 序 列 。 






> 
x«-c(42,153,54,176,61,134,98,155,82,111,63,244,178,232,167,222,107,193,115, 190, 132) 
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> ts(x,frequency-7,start-c(1,1))-»sales.x 
> sales.x 
Time Series: 
Start = e(l, 1) 
End 三 c(3, 7) 
Frequency - 7 
[1] 42 153 54 176 64 134 2398 155 82 I11 63 244 178 232 167 222 107 193 
[19] 115 190 132 


观察 sales.x 的 输出 结果 ， 表 9-5 所 示 为 21 天 的 销售 数据 ， 指 定 周期 为 7 天 后 ， 即 形成 
以 周 为 周期 的 时 间 序 列 ，Start 表示 数据 的 周期 起 始 为 c(1,1)， 即 : 第 1 周 的 第 1 天 ，End 表 


示 数 据 的 周期 终止 为 c3,7)， 即 : 第 3 周 的 第 7 天 。 
然后 ， 进 行 二 次 平滑 。 


> HoltWinters(sales.x, gamma-FALSE)--»mysol 
» mysol 
Holt-Winters exponential smoothing with trend and without seasonal component. 


Call: 
HoltWinters(x - sales.x, gamma - FALSE) 


Smoothing parameters: 
alpha: 0.4649865 
beta : 0.8894224 
gamma: FALSE 


Coefficients: 

[; 11 
a 143.102068 
b 2.827244 
- 


观察 mysol 输出 ，HoltWinters 函数 计算 出 最 佳 平 滑 系 数 ， 其 中 ， 一 次 指数 平滑 系数 为 


0.4649865， 二 次 指数 平滑 系数 为 0.8894224。 
最 后 ， 绘 制 效果 图 (如 图 9-39 所 示 )。 


> plot(sales.x,col-"blue",ylim-c(1,500),xlim-c(1,5),xlab-" f| ",ylab-" 销量 ") 
> lines (mysol$fitted[,1],col="red",type="b") 


观察 图 9-39， 蓝 色 实 线 是 原 数据 ， 红 色 虚 线 是 平滑 拟 合 值 。 


2. 三 次 指数 平滑 
在 RR 语言 中 ， 可 调用 HoltWinters 函数 进行 三 次 指数 平滑 ， 使 用 时 需要 注意 以 下 事项 : 


口 alpha 参数 指定 一 次 平滑 系数 ，beta 参数 指定 二 次 平滑 系数 ，gamma 参数 指定 三 次 平 


滑 系数 。 
口 HoltWinters 函数 计算 预测 值 的 方式 有 如 下 两 种 。 
第 一 种 是 累 乘法 ,计算 公式 如 下 : 


a[t]=a(Y[f/s[t-p))+1-a)(a[t-1]+b[t-1]) 
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b[#]=p(a[t]-alt-1])+(1-p)b[~1] 
sry at a-»stcop] 
Yhat[t-h]-(a[t]-h X b[t]) X s[t-p+1+(h-1)mod p] 








周 
图 9-39 二 次 指数 平滑 


Hh, a. B. y 分 别 为 一 次 、 二 次 、 三 次 平滑 系数 ，Yhat 为 预测 值 。 
第 二 种 是 累加 法 ， 计 算 公式 如 下 : 
a|t]-a(Y[r]-sE-7p])* (0 -a)(a[t71 ] eb [17 1]) 
b[r]-B(a[r]-a[i71])* (0. -5)5[r-71] 
s[r-y(Yu]-atm*a-»stc-»] 
Yhat[t-A]-(a[t]-A X b[r]) X s[t-p+1+(h-1)mod p] 
由 seasonal 参数 指定 三 次 平滑 的 方式 ， 分 别 为 additive (累加 方式 )、multiplicative ( 累 乘 
方式 )， 默 认为 additvie。 
O 调用 HoltWinters 函数 前 ， 需 要 使 用 ts 函数 将 数据 转化 为 时 间 序 列 向 量 。ts 函数 主要 
有 以 下 参数 : 
e Frequency: 周期 频率 
e Start: 开始 时 间 点 
下 面 编写 R 代码 ， 对 表 9-4 所 示 的 虚拟 商品 X 的 销量 数据 进行 平滑 。 
首先 ， 载 人 数据 ， 然 后 转 成 时 间 序 列 。 
xcci RIO, 3038,24 98, 198 188 E DAL DITV. 2090, 09, do, NE RR S ET 
» ts(x,frequency-7,start-c(1,1))-»sales.x 
> sales.x 
Time Series: 
Start = eL, 1) 


End - c(3, 7) 
Frequency = 7 
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[1] 12 123 54 176 121 134 198 155 122 111 133 244 278 232 267 222 
[17] 187 193 245 110 132 


观察 sales.x 的 输出 结果 ， 表 9-4 所 示 为 21 天 的 销售 数据 ， 指 定 周期 为 7 天 后 ， 即 形成 
以 周 为 周期 的 时 间 序 列 ，Start 表示 数据 的 周期 起 始 为 c(1,1)， 即 : 第 1 周 的 第 1 天 ，End 表 
示 数 据 的 周期 终止 为 c3,7)， 即 : 第 3 周 的 第 7 天 。 

然后 ， 进 行 三 次 平滑 。 

> HoltWinters(sales.x)-»mysol 


> mysol 
Holt-Winters exponential smoothing with trend and additive seasonal component. 


Cali: 
HoltWinters(x - sales.x) 


Smoothing parameters: 
alpha: 0.6264084 


beta : 0 
gamma: 1 
Coefficients: 


[,1] 
a 122.270966 
b 8.447279 
sl 36.581455 
s2 -20.578516 
s3 -57.187646 
s4 -26.947654 
s5 24.695147 
s6 -30.083230 
s7 9.729034 


观察 mysol 输出 ，HoltWinters 函数 计算 出 最 佳 平 滑 系 数 ， 其 中 ， 一 次 指数 平滑 系数 为 
0.6264084， 二 次 指数 平滑 系数 为 0， 三 次 指数 平滑 系数 为 1。 此外， 商品 X 的 销量 周期 系数 
为 sl 到 s7. 

再 绘制 效果 图 ， 如 图 9-40 所 示 。 


> plot(sales.x,col-"blue",ylim-c(1,500),xlim-c(1,5),xlab-" 周 ",ylab=" 销量") 
> lines'(mysol$fittedl[l,1],col="red", type="b") 


观察 图 9-40， 蓝 色 实 线 是 原 数据 ， 红 色 虚 线 是 平滑 拟 合 值 。 
最 后 ， 对 以 后 的 趋势 进行 预测 。 表 9-4 所 示 的 数据 是 虚拟 商品 X21 天 的 销量 ， 现 在 对 以 
后 M 天 的 销量 进行 预测 ， 预 测 效果 如 图 9-41 所 示 。 


> predict(mysol, 14, prediction.interval = TRUE)-»p 
> plot (mysol,p,xlab-" f| ",ylab-" %4 E ",xlim-c(1,7),main-" 销量 预测 ") 


观察 图 9-41， 黑 色 线 为 原 数据 ， 红 色 线 为 平滑 拟 合 值 。 虚 线 右 侧 的 部 分 是 以 后 14 天 的 
虚拟 商品 X 的 预测 销量 部 分 ， 该 部 分 的 中 间 红 线 为 预测 走势 曲线 ， 上 方 和 下 方 曲线 分 别 为 预 
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测 置 信 区 间 的 上 限 和 下 限 。 
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图 9-40 三 次 指数 平滑 图 9-41 三 次 指数 平滑 预测 


9.4 小 结 


本 章 首先 介绍 了 数据 拟 合 的 技术 。 数 据 拟 合 是 通过 理想 的 假设 方程 来 拟 合 数据 的 ， 得 
到 这 个 假设 方程 主要 有 两 种 方式 : 第 一 ， 通 过 观察 样本 数据 点 的 分 布 来 估计 所 属 函 数 的 图 
像 ， 在 拟 合 后 计算 相关 统计 指标 ， 评 估 拟 合 的 效果 ; 第 二 ， 以 假设 方程 的 自 变量 为 输入 样 
本 ， 以 变量 为 样本 的 目标 输出 ， 通 过 神经 网 络 进行 训练 ， 以 权 值 矩阵 和 众多 神经 元 的 激活 函 
数 等 神经 网 络 组 件 完成 输入 到 输出 的 映射 ， 其 实质 是 建立 一 个 更 复杂 的 拟 合 模型 来 实现 数据 
拟 合 。 

然后 讲解 了 移动 平均 法 、 递 归 线 性 过 滤 法 、 指 数 平 滑 法 等 平滑 方法 。 数 据 或 曲线 平滑 通 
过 建立 近似 函数 发 现 数 据 中 的 主要 模式 ， 去 除 噪声 、 结 构 细节 或 瞬时 现象 ,减少 不 必要 的 数 
据 波 动 ， 从 而 实现 数据 集 的 平滑 。 


思考 题 


C1) 假设 有 两 类 数据 ， 下 面 是 这 两 类 数据 的 分 布 散 点 图 ， 从 图 像 上 分 析 拟 合 这 些 数据 的 
函数 方程 。 


(2) 编写 Python 代码 实现 多 层 感知 器 ， 拟 合 y=0.7sin(x)+0.3cos(x) 函数 。 
(3) 本 章 讲解 了 通过 线性 滤波 去 除 背 景 音乐 的 方法 。 请 尝试 用 非 线性 滤波 解决 这 个 问 
题 ， 即 : 使 用 多 层 感 知 器 对 背景 音乐 进行 拟 合 ， 然 后 将 它 从 语音 文件 中 去 除 。 
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图 像 算法 案例 


机 器 学 习 算法 可 对 数字 图 像 进行 加 工 和 处 理 ， 以 便 进一步 进行 特征 提取 的 工作 ， 主 要 目 
标 为 从 图 像 中 挖掘 所 需要 的 知识 和 信息 ， 主 要 解决 图 像 锐 化 、 图 像 除 噪 、 图 像 增 强 、 图 像 分 
类 、 图 像 识别 等 问题 ， 其 算法 过 程 主要 包括 : 图 像 获取 、 预 处 理 、 特 征 提 取 、 加 工分 析 、 提 
取 知识 等 。 


10.1 图 像 边缘 算法 


10.1.1 ”数字 图 像 基础 


再 次 复习 一 下 数字 图 像 的 知识 。 数 字 图 像 在 计算 机 中 保存 为 二 维 整数 数组 ， 数 组 中 元 素 
是 二 维 图 像 中 的 像素 ， 每 个 像素 都 用 有 限 数 值 表 示 ， 对 应 于 二 维 空间 中 一 个 特定 的 位 置 。 图 
像 是 由 二 维 像素 点 组 成 的 矩阵 ， 通 常 每 个 像素 点 由 3 个 元 素 组 成 一 一 红 、 绿 、 蓝 ， 这 3 个 基 
本 分 量 可 以 组 成 高 清 的 图 像 。 也 可 以 把 图 像 上 的 每 个 像素 点 理解 为 (xyz) 这 样 的 一 个 点 ， 
这 个 点 定义 在 三 维 空间 ， 每 一 维 分 别 代表 红 、 绿 、 蓝 分 量 。 

假设 将 像素 的 顺序 定义 为 : 蓝 、 绿 、 红 ， 那 么 就 可 以 定义 一 个 像素 点 为 (blue,green,red)。 
每 个 图 像 由 大 量 的 像素 点 组 成 ， 如 果 将 这 个 像素 点 组 成 的 矩阵 定义 为 态 x 政大 小 (五 为 高 ， 
WHE) MARAT — AHX W x3 的 矩阵 (“3” 表 示 像 素 点 的 数值 由 3 个 基本 分 量 组 
成 )。OpenCV 作为 图 像 算 法 库 ， 对 图 像 矩 阵 也 是 这 么 定义 的 。 请 提前 安装 好 OpenCV， 本 章 
大 部 分 例子 都 需要 它 的 Python 绑 定 库 。 

假设 图 像 矩 阵 的 变量 名 为 img， 现 在 要 用 Python 实现 一 个 蓝 色 分 量 为 200、 绿 色 为 100、 
红色 为 50 的 像素 点 的 定义 ， 这 个 像素 点 位 于 图 像 的 300 x 150 处 。 代 码 如 下 : 
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img[300,150,0]-200 
img[300,150,1]-100 
img[300,150,2]-50 


10.1.2 ”算法 描述 


算法 的 基本 原理 是 : 将 当前 像素 与 邻接 的 下 部 和 右 部 的 像素 进行 比较 ， 如 果 相 似 ， 则 将 
当前 像素 设置 为 白色 ， 否 则 设置 为 黑色 。 如 何 判 定 像素 相似 呢 ? 应 用 欧 氏 距 离 算 法 ， 将 一 个 像 
素 的 3 个 色彩 分 量 映射 在 三 维 空间 中 ， 
如 果 2 个 像素 点 的 欧 氏 距 离 小 于 某 个 
常数 的 浆 值 ， 就 认为 它们 相似 。 算 法 
的 最 终 效 果 如 图 10-1 所 示 。 图 10-1 中 
左 图 是 原 图 像 ， 右 图 是 计算 图 像 边 缘 
的 结果 。 z 
上 面 涉及 的 算法 其 关键 是 欧 氏 距 HH MONSUM 
离 计算 。 下 面 用 Python 编写 计算 欧 氏 距离 的 函数 。 

def get EuclideanDistance(x,y): 

myx-np.array (x) 


myy-np.array (y) 
return np.sqgrt (np.sum( (myx-myy) * (myx-myy))) 


完整 的 代码 为 : 


#!/usr/bin/env python 
4-*- coding: utf-8 -*- 
4$code:myhasple8qq.com 
4$10-1.py 

import cv2 

import numpy as np 


LL 








fn-"testl.jpg" 
def get EuclideanDistance (x,y): 
myx-np.array (x) 
myy-np.array (y) 
return np.sqrt (np.sum( (myx-myy) * (myx-myy))) 


if name ec 5 gnam 6s 





print 'loading $5s ...' $ fn 

print 'working', 

myimgl - cv2.imread(fn) 
wezmyimgl.shape[1] 

hemyimgl.shape[0] 

szl-w 

sz0-h 

# 创建 空白 图 像 
myimg2-np.zeros((sz0,szi1,3), np.uint8) 


# 对 比 产生 线条 
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black-np.array([0,0,0]) 
white-np.array([255,255,255]) 
centercolor-np.array([125,125,125]) 
for y in xrange(0,sz0-1): 

for x in xrange(0,szl-1): 


mydown-emyimgl[y-1,x,:] 
myright-myimgl[y,x-«1,:] 


myhere-myimgl[y,x,:] 
lmyhere-myhere 
Imyright-smyright 
lmydown-mydown 
if get EuclideanDistance(lmyhere,lmydown)^16 and get EuclideanDistan 
ce(lmyhere,lmyright)»16: 
myimg2[y,x,:]-black 
elif get EuclideanDistance(lmyhere,lmydown)«-16 and get EuclideanDisN 
tance(lmyhere,lmyright)-«-16: 


myimg2[y,x,:]-white 
else: 
myimg2[y,x,:]-centercolor 
prune "QU, 


cv2.namedWwindow('img2') 
cv2.imshow('img2', myimg2) 
cv2.waitKey() 
cv2.destroyAllWindows() 


10.2 图像 匹配 


图 像 匹 配 算 法 是 基于 像素 的 比较 和 计算 来 实现 的 方法 。 如 图 10-2 所 示 是 美国 的 X-47B, 
它 是 人 类 历史 上 第 一 架 无 需 人 工 干 预 、 完 全 由 计算 机 智能 操纵 的 无 人 驾驶 飞机 。 现 在 以 其 在 
航母 起 飞 的 图 像 为 例 讲解 本 节 内 容 。 





图 10-2 X-47B 航母 起 飞 
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如 图 10-3 所 示 为 图 10-2 的 两 张 局 部 切片 图 。 我 们 的 任务 是 找到 两 张 切 片 图 在 图 10-2 中 
的 位 置 ， 并 将 它们 标注 出 来 。 





图 10-3 两 张 X-47B 起 飞 画面 切片 图 


10.2.1 “差分 矩阵 求 和 

差分 算法 的 核心 在 于 差分 和 矩阵， 实质 为 差异 矩阵 ， 计 算 公式 很 简单 ， 

差分 矩阵 = 图 像 A 矩阵 数据 - 图 像 B 矩阵 数据 

算法 过 程 是 : 首先 ， 计 算 两 个 图 像 的 矩阵 数据 之 间 差 异 分 析 图 像 的 相似 性 ; 然后 ， 设 
置 一 个 阔 值 进行 比较 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 在 阔 值 以 内 ， 则 表示 这 两 张 图 像 是 相似 
的 ， 且 描述 了 同一 物体 。 另 外 ， 它 要 求 两 个 图 像 的 大 小 相同 ， 大 小 处 理 对 于 计算 机 来 说 不 成 
问题 ， 改 变 图 像 尺寸 的 算法 已 非常 成 熟 ， 实 现 起 来 很 方便 。 

编写 程序 实现 这 个 算法 的 基本 思路 为 : 将 图 10-3 所 示 的 切片 图 在 图 10-2 中 进行 移动 ， 
并 计算 两 个 图 像 的 差分 矩阵 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 小 于 1， 则 认为 找到 了 切片 图 在 
图 像 中 的 位 置 。 实 现 该 算法 的 Python 代码 如 下 : 


def showpiclocation(img,findimg): 
# 定位 图 像 
w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
findpt-None 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
comp tz-img[now h:now h-«fh,now w:now w«fw,:]-findimg 
if np.sum(comp tz)«1: 
findpt-now w,now h 
print ".* 
if  findpt!-None: 
cv2.rectangle(img, findpt, (findpt[0]-«fw,findpt[1]-«f£h),(255,0,0)) 
return img 


如 图 10-4 所 示 为 算法 效果 图 ， 看 上 去 识别 效果 不 错 。 
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图 10-4 切片 识别 效果 图 


完整 的 Python 代码 如 下 : 


4$!/usr/bin/env python 
4$-*- coding: utf-8 -*- 
d$code:myhasplG8qq.com 
#10-2.py 

# 简单 定位 图 像 





import cv2 
import numpy as np 
print 'loading  ,.,.,' 
def showpiclocation(img,findimg): 
# 定位 图 像 
w-img.shape[1] 
h-img.shape[0] 
fw-findimg.shape[l] 
fh-findimg.shape[0] 
findpt-None 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
comp tz-img[now h:now h«fh,now w:now w-fw,:]-findimg 
if np.sum(comp tz)«1: 
findpt-now w,now h 
prim w.", 
if findpt!-None: 
cv2.rectangle(img, findpt, (findpt[0]«fw,findpt[1]-«fh),(255,0,0)) 
return img 





fn-'pictest.png' 
fnli-'pictestti.png' 
fn22'pictestt2.png' 
myimg-cv2.imread(fn) 
myimgi-cv2.imread(fn1l) 
myimg2-cv2.imread(fn2) 
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myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow('img') 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


10.2.2 ”差分 矩阵 均值 


刚才 小 试 牛 刀 ， 通 过 对 差分 矩阵 中 所 有 元 素 求 和 完成 了 匹配 ， 效 果 不 错 。 当 数字 图 像 质 
量 较 差 时 ， 则 需要 计算 差分 和 矩阵 的 均值 ， 并 为 均值 设 一 个 适当 的 阔 值 。 

下 面 仍 用 Python 编写 算法 ， 在 目标 图 中 加 上 少量 (50000 个 ) 不 同 颜色 的 噪声 点 ， 从 而 
测试 算法 在 弱 噪 声 环境 下 的 有 效 性 。 因 为 图 像 质 量 不 高 ， 存 在 很 多 品 声 点 ， 所 以 要 将 差分 矩 
阵 均 值 的 阔 值 设置 得 稍 大 一 点 ， 这 里 设 为 20。 通 党 来 说 ， 阔 值 为 10 ~ 200, WERK, f 
容忍 的 噪声 点 越 多 。 但 如 果 冰 值 超过 200， 最 好 使 用 下 一 节 介 绍 的 欧 氏 距离 算法 。 如 图 10-5 
所 示 是 算法 应 用 效果 。 





图 10-5” 弱 噪声 切片 识别 效果 图 ( 附 彩 网 ) 


Python 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq .com 
4$10-3.py 

# 少量 噪声 定位 图 像 


import cv2 
import numpy as np 


print 'loading 
def showpiclocation(img,findimg): 
# 定位 图 像 
w-img.shape[l1] 
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^ 
DC 


def 
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hzimg.shape[0] 
fw-findimg.shape[1] 
fh-findimg.shape[0] 
findpt-None 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
comp tz-img[now h:now h«fh,now w:now w-«fw,:]-findimg 
if abs(np.mean(comp tz))«20: 
findpt-now w,now h 
print "ok" 
Prine M". 
if findpt!-None: 
cv2.rectangle(img, findpt, (findpt[0]-«fw,findpt[1]-fh),(0,0,255)) 
return img 


addnoise(img): 

coutn-50000 

for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1]) 
xj = int(np.random.uniform(0,img.shape[0])) 
img [xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]-2 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 


'pictest.png' 


fnl-2'pictesttl.png' 
fn22'pictestt2.png' 
myimg-cv2.imread (fn) 
myimgl-cv2.imread(fnl) 
myimg2-cv2.imread(fn2) 

addnoise (myimg) 
myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 


cv2 
Cv2 
Cv2 
EV2 


.namedWindow('img') 
.imshow('img', myimg) 
.waitKey() 
.destroyAllWindows() 


可 见 ， 在 弱 噪 声 的 情况 下 ， 差 分 算法 仍然 具有 很 好 的 匹配 效果 。 


10.2.3 


欧 氏 距离 匹配 


1. 强 噪声 图 像 匹 配 
对 强 噪声 环境 下 的 图 像 进行 匹配 时 ， 欧 氏 距 离 匹配 方法 相对 于 以 上 两 种 方法 会 有 更 好 的 
效果 o 
仍 以 上 面 的 图 像 为 目标 进行 讲解 。 首 先 ， 在 目标 图 像 中 加 上 更 多 的 (500000 个 ) 不 同 颜 
色 的 噪声 点 。 代 码 如 下 : 


def addnoise(img): 


coutn-500000 
for k in xrange(0,coutn): 
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xi = int(np.random.uniform(0,img.shape[1])) 
xj = int(np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]- 255 *np.random.rand() 
ixg[Xxij,x1,1]29 255 ~p: random: randi) 
img[xj,xi,2]- 255 *np.random.rand() 


生成 强 噪声 环境 下 的 图 像 ， 如 图 10-6 所 示 。 






图 10-6” 强 噪声 图 像 〈 附 彩 网 ) 


现在 要 应 用 欧 氏 距离 对 如 图 10-6 所 示 的 目标 图 完成 匹配 。 其 核心 算法 为 : WEREMA 
nn 个 元 素 ， 用 n 个 元 素 值 (xz x, os). 组 成 该 图 像 的 特征 组 ， 特 征 组 形成 了 维 空间 ， 特 征 
组 中 的 特征 码 构成 每 一 维 的 数值 。 在 对 维 空间 下 ， 两 个 图 像 矩 阵 各 形成 了 一 个 点 ， 然 后 计算 
这 两 个 点 之 间 的 距离 ， 距 离 最 小 者 为 最 匹配 的 图 像 。 

如 图 10-7 所 示 是 算法 应 用 的 效果 图 ， 欧 氏 距 离 算 法 成 功 地 找到 了 匹配 位 置 。 在 图 像 如 
此 模糊 的 情况 下 ， 人 用 肉眼 都 很 难 进行 图 像 匹配 。 由 此 可 见 ， 机 器 学 习 算 法 在 某 些 方面 胜 过 
人 类 的 “智能 ”。 





图 10-7 强 噪声 切片 识别 效果 图 ( 附 彩 图 ) 
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完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
UCE e*- 


#-*- coding: 
d$code:myhaspleqg.com 
#10-4.py 
# 大 量 噪声 定位 图 像 


import cv2 
import numpy as np 


print 
print 
print 
print 


机 器 学 习 实战 篇 


'http://blog.csdn.net/myhaspl' 


'myhaspl8qq.com' 


'loading  ...' 


def get EuclideanDistance(x,y): 
myx-np.array(x) 
myy-np.array (y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 


def findpic(img,findimg,h,fh,w,fw): 
minds-1e8 
mincb h-0 
mincb w-0 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
my img-img([now h:now h«fh,now w:now w-«fw,:] 
my findimg-findimg 
dis-get EuclideanDistance (my. img,my findimg) 
if dis«minds: 
mincb h-now h 
mincb w-now w 
minds-dis 
print "yti 
findpt-mincb w,mincb h 


cv2.rectangle(img, 





return img 


findpt, (findpt[0]4fw,findpt[1]«fh),(0,0,255)) 


def showpiclocation(img,findimg): 
# 定位 图 像 
w-img.shape[1] 
h-img.shape[0] 


fw-findimg.shape[1] 
fh-findimg.shape[0] 


return findpic(img,findimg,h,fh,w,fw) 


def addnoise(img): 
coutn-500000 
for k in xrange(0,coutn): 

int (np.random.uniform(0,img.shape[1])) 

int (np.random.uniform(0,img.shape[0])) 


xi 
xj 
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img[xj,xi,0]- 255 *np.random.rand() 
img[xj,xi,1]- 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 


fn-'pictest.png' 
fnl-'pictesttl.png' 
fn2-'pictestt2.png' 
myimg-cv2.imread(fn) 
myimgl-cv2.imread(fni) 
myimg2-cv2.imread(fn2) 
addnoise(myimg) 
myimg-showpiclocation(myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow("'img') 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


2. 变形 图 像 匹 配 
欧 氏 距离 方法 不 仅 对 强 噪声 图 像 匹配 有 效 ， 而 且 对 变形 后 的 图 像 匹 配 效 果 也 不 错 。 如 
图 10-8 所 示 就 是 应 用 欧 氏 距离 方法 对 有 倾斜 角度 的 图 像 进行 匹配 的 效果 。 








图 10-8 倾斜 图 像 匹配 效果 图 
算法 原理 前 面 已 经 解说 过 ， 在 此 不 重复 。 相 关 的 Python 代码 实现 如 下 : 
#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 


#10-5.py 
# 图 像 倾 斜 后 定位 图 像 


import cv2 
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import numpy as np 
print 'loading 


def get EuclideanDistance(x,y): 
myx-np.array (x) 
myy-np.array (y) 
return np.sqrt (np.sum( (myx-myy) * (myx-myy))) 


def findpic(img,findimg,h,fh,w,fw): 
minds-1e8 
mincb h-0 
mincb w-0 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
my img-img[now h:now h-«fh,now w:now w-*fw,:] 
my. findimg-findimg 
dis-get EuclideanDistance(my img,my findimg) 
if dis«minds: 
mincb h-now h 
mincb. w-now w 
minds-dis 
print *.*, 
findpt-mincb w,mincb h 
cv2.rectangle(img, findpt, (findpt[0]«fw,findpt[1]^4fh), (0,0,255)) 
return img 


def showpiclocation(img,findimg): 
# 定位 图 像 
w-img.shape[1] 
h-img.shape[0] 
fw-findimg.shape[1] 
fh-findimg.shape[0] 
return findpic(img,findimg,h,fh,w,fw) 


fn-'pictestxz.png' 
fnl-'pictesttl.png' 
fn2-2'pictestt2.png' 
myimg-cv2.imread (fn) 
myimgi-cv2.imread(fnl) 
myimg2-cv2.imread(ftn2) 


myimg-showpiclocation(myimg,myimg1) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow('img') 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


欧 氏 焉 离 对 弱 噪 声 环境 下 的 变形 图 像 人 有 不 错 的 效果 ， 如 图 10-9 所 示 。 
该 算法 的 Python 实现 代码 如 下 : 
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图 10-9 ” 弱 噪 声 变形 图 像 匹配 


d!/usr/bin/env python 
$-*- coding: utf-8 =*= 
#code:myhaspl@qgq .com 
#10-6.py 
HERRER EmRE XR. Eia 
import cv2 
import numpy as np 
print 'loading t 
def get EuclideanDistance(x,y): 

myx-np.array (x) 

myy-np.array(y) 

return np.sqrt(np.sum((myx-myy)*(myx-myy))) 


def findpic(img,findimg,h,fh,w,fw): 
minds-1e8 
mincb h-0 
mincb w=0 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
my img-img[now h:now h«fh,now w:now w+fw,:] 
my findimg-findimg 
dis-get EuclideanDistance(my img,my findimg) 
if dis«minds: 
mincb h-now h 
mincb w-now w 
minds-dis 
meint ta"; 
findpt-mincb w,mincb h 
cv2.rectangle(img, findpt, (findpt[0]«fw,findpt[1]«fh), (0,0,255)) 
return img 


def showpiclocation(img,findimg): 
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# 定位 图 像 

w-img.shape[l] 

h-img.shape[0] 

fw-findimg.shape[1] 
fh-findimg.shape[0] 

return findpic(img,findimg,h,fh,w,fw) 


def addnoise(img): 
coutn-50000 
for k in xrange(0,coutn): 
- int(np.random.uniform(0,img.shape[1])) 
- int(np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]-2 255 *np.random.rand() 
img[xj,xi,1]- 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 


xi 
xj 


fn-'pictestxz.png' 
fnl-'pictesttl.png' 
fn2-'pictestt2.png' 
myimg-cv2.imread(fn) 
myimgi-cv2.imread(fnl) 
myimg2-cv2.imread(fn2) 

addnoise (myimg) 
myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow('img') 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAliWindows() 


10.3 图像 分 类 


近年 来 随 着 多 媒体 技术 的 发 展 ， 图 像 分 类 技术 受到 了 普遍 的 关注 ， 目 前 采用 的 方法 以 机 
器 学 习 算 法 为 主 。 图 像 分 类 利用 计算 机 对 图 像 进行 分 析 ， 根 据 图 像 信息 的 不 同 特征 ,将 不 同 


类 别 的 图 像 区 分 开 来 。 
图 像 分 类 的 算法 过 程 如 下 : 
1 ) 准备 样本 图 像 。 样 本 图 像 的 要 求 是 : 能 代表 所 属 类 别 中 尽 可 能 多 的 图 像 。 
2) 提取 每 个 样本 的 特征 后 ， 形 成 类 别 特征 码 。 
3) 应 用 机 器 学 习 算 法 对 类 别 特征 码 进行 学 习 ， 提 取 特 征 码 包含 的 图 像 知识 。 
4 ) 判断 未 知 图 像 所 属 类 别 。 


10.3.1 ”余弦 相似 度 


余弦 相似 度 通过 测量 两 个 向 量 内 积 空 间 的 夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 ， 尤 其 
适用 于 任何 维度 的 向 量 比较 中 ， 因 此 属于 高 维 空间 应 用 较 多 的 机 器 学 习 算 法 。 通 常 来 说 ， 数 
字 图 像 包 含 的 特征 码 较 多 ， 而 这 些 特征 组 就 属于 高 维 空间 ， 这 正 是 余弦 相似 度 算法 应 用 的 范 
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围 ， 算 法 将 每 个 图 像 的 特征 组 转化 为 高 维 空间 的 向 量 ， 两 个 向 量 之 间 的 角度 之 余弦 值 可 用 于 
确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 

在 图 像 分 类 中 应 用 余弦 相似 度 算 法 的 关键 在 于 : 计算 这 些 代表 每 个 图 像 特 征 的 向 量 的 内 
积 空间 的 夹 角 余 弦 值 ， 从 而 度量 图 像 之 间 的 相似 性 。 对 于 相似 性 的 衡量 标准 有 以 下 两 种 : 

口 为 相似 性 设置 一 个 阐 值 。 在 这 个 立 值 以 内 的 都 属于 同一 类 别 图 像 。 这 种 标准 可 以 将 图 

像 划 分 为 多 种 类 型 ， 例 如 : 高 楼 不 但 属于 城市 美景 ， 而 且 属于 写字 楼 景观 。 
口 选择 与 样本 向 量 的 余弦 相似 度 最 接近 1 的 图 像 为 该 类 别 图 像 。 这 种 标准 只 能 将 图 像 划 
分 为 一 种 类 别 。 

1. 算法 描述 

下 面 针对 第 二 种 衡量 标准 讲解 余弦 相似 度 算法 。 

特征 提取 一 直 是 图 像 处 理 和 计算 机 视觉 研究 领域 中 一 个 值得 探讨 的 问题 ， 在 计算 机 科 
学 、 医 疗 辅助 诊断 、 军 事 、 工 业 测 量 等 众多 领域 都 广泛 采用 这 一 技术 ,尤其 是 在 计算 机 视觉 
和 模式 识别 的 研究 中 。 如 何 准确 定位 和 提取 关键 特征 往往 是 首先 需要 解决 的 问题 之 一 ， 是 提 
高 识别 率 等 问题 的 重要 前 期 准备 和 关键 因素 。 目 前 图 像 特 征 提取 算法 较 多 ， 不同 的 算法 适应 
于 不 同 的 图 像 分 析 任 务 。 

本 节 讲 述 的 算法 基本 原理 是 : 把 图 像 上 的 点 分 为 不 同 的 子 集 ， 这 些 子 集 往往 属于 孤立 的 
点 、 连 续 的 曲线 或 者 连续 的 区 域 。 将 这 些 点 按 区 域 组 成 子 集 ， 提 取 子 集 的 特征 后 ， 将 每 个 子 
集 的 特征 作为 图 像 的 一 个 特征 项 来 进行 计算 。 

1) 样本 特征 。 设 图 像 分 为 m 个 区 域 ， 每 个 区 域 有 n 个 像素 ,每 个 像素 在 图 像 算 阵 中 以 
红 、 绿 、 蓝 三 色 来 表示 ， 且 区 域 特征 计算 方式 为 : 


》 像素 i 颜色 的 红色 分 量 值 ”像素 i 颜色 的 绿色 分 量 什 
TTC abbot Sianie oiledinn i 


n n 


之 像素 ;颜色 的 蓝 色 分 量 值 


n 
那么 , 样本 特征 码 矩 阵 为 3xmm， 即 共 3 43 m Fl, X 3 行 分 别 代表 红 、 绿 、 蓝 三 个 分 量 ， 
每 列 为 各 分 量 的 区 域 特征 码 。 
2) 类 别 特征 。 这 里 为 每 个 类 别 准备 了 3 个 样本 ， 类 别 特征 的 计算 方式 为 : 
立 样 本 ;的 红色 分 量 特征 值 ” 实 样本 ;的 绿色 分 量 特征 值 


类 州 料 征 码 = 一 一 一 一 一 一 一 3 


之 样本 ;的 蓝 色 分 量 特征 值 
3 
其 中 ,样本 i 是 属于 该 类 别 的 样本 。 
在 计算 出 类 别 特征 后 ， 算 法 对 样本 学 习 完 毕 。 当 有 未 知 图 像 需 要 分 类 时 ， 首 先 计 算 其 图 
像 的 样本 特征 ， 然 后 将 样本 特征 和 类 别 特征 映射 为 高 维 空 间 的 向 量 ， 最 后 计算 这 两 个 向 量 的 
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余弦 相似 度 ， 选 择 余弦 相似 度 最 大 的 类 别 为 未 知 图 像 对 应 的 类 别 。 


2. 算法 应 用 

下 面 以 风景 图 像 分 类 为 例 说 明 余弦 相似 度 
的 应 用 。 为 每 个 类 别 各 准备 3 个 样本 图 像 ， 提 
取 类 别 特征 码 ， 然 后 将 如 图 10-10 ~ 图 10-12 
所 示 的 3 个 待 分 类 图 像 划分 到 蓝天 风景 、 树 林 
风景 、 瀑 布 风景 这 3 个 分 类 中 。 


3. Python 实现 

1) 将 图 10-10 ~ 图 10-12 分 别 从 上 到 下 、 
从 左 到 右 分 割 成 若干 块 状 区 域 ， 对 每 块 区 域 的 
图 像 像素 特征 进行 提取 后 ， 形 成 这 3 个 待 分 类 
图 像 的 特征 码 。 下 面 的 代码 所 示 的 函数 readpic 图 10-10 蓝天 风景 
定义 了 分 割 并 提取 特征 码 的 操作 ， 以 待 分 类 图 像 为 参数 调用 该 函数 ， 完 成 特征 码 计算 。 








图 10-11 树林 风景 图 10-12 瀑布 风景 


def readpic(fn): 
# 返回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (800,600)) 
w-img.shape[l] 
h-img.shape[0] 
w interval-w/w fg 
h interval-h/h fg 
alltz-[] 
alltz.append([]) 
alltz.append([]) 
alltz.append([]) 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 


b = img[now h:now h«h interval,now w:now wiw interval,0] 
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g = img[now h:now h«h interval,now w:now w«w interval,1] 
r = img[now h:now h«h interval,now w:now ww interval,2] 
btz-np.mean (b) 

gtz-np.mean(g) 

rtz-np.mean(r) 

alltz[0].append (btz) 

alltz[1].append(gtz) 

alltz[2].append(rtz) 

return alltz 


2) 计算 类 别 特征 码 。 通 过 每 个 类 别 所 有 样本 的 区 域 特 征 的 平均 值 ， 提 取 类 别 特征 。 代 
码 如 下 : 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange(1,picflag+1): 
smp. x-[] 
b tz-np.array([0,0,0]) 
g tz-np.array([0,0,0]) 
r tz-np.array([0,0,0]) 
mytz-np.zeros((3,w fg*h fg)) 
for jj in xrange(1,3): 
fn-'p'«str(ii)«'-'«str(jj)-s'.png' 
tmptz-readpic(fn) 
mytz«-np.array (tmptz) 
mytz/-3 
train x.append(mytz[0].tolist()«mytz[1].tolist()«mytz[2].tolist()) 


3) 计算 待 分 类 图 像 的 特征 码 与 每 个 类 别 特征 码 之 间 的 余弦 距离 ， 距 离 最 大 者 为 图 像 所 
属 分 类 。 下 面 的 代码 计算 了 ptest3.png 图 像 与 每 个 类 别 特 征 码 的 余弦 相似 度 。 


fn-'ptest3.png' 
testtz-np.array (readpic(fn)) 
simtz-testtz[0].tolist()«testtz[1].tolist()«testtz[2].tolist() 
maxtz-0 
nowi-0 
for i in xrange(0,picflag): 

nowsim-get cossimi (train x[i],simtz) 

if nowsim»maxtz: 

maxtz-nowsim 


nowi-i 
print u'$s 属于 第 sa X '$(fn,nowi«1) 
完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
4$-*- coding: utf-8 -*- 
d$code:myhaspl8qq.com 
4$10-7.py 

# 余弦 距离 识别 图 像 类 型 
import numpy as np 
import cv2 
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print u' 正在 处 理 中 ， 
w fg-20 
h fg215 
picflag-3 
def readpic(fn): 
# 返回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (800,600)) 
w-img.shape[1] 
h-img.shape[0] 
w interval-w/w. fg 
h interval-h/h fg 
alltz-[] 
alltz.append([]) 
alltz.append([]1) 
alltz.append([1) 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 
b = img[now h:now h«h interval,now w:now w-*w interval,0] 
g = img[now h:now h«h interval,now w:now w-w interval,l1] 
r = img[now h:now h-«h interval,now w:now w«w interval,2] 
btz-np.mean (b) 
gtz-np.mean(g) 
rtz-np.mean(r) 
alltz[0].append(btz) 
alltz[1].append(gtz) 
alltz[2].append(rtz) 
return alltz 


def get cossimi(x,y): 
myx-np.array (x) 
myy-np.array (y) 
cosl-np.sum(myx*myy) 
cos21-np.sqrt (sum(myx*myx) ) 
cos22-np.sqrt (sum(myy *myy ) ) 
return cosl/float(cos21*cos22) 


#x 和 a 样本 初始 化 
train x -[] 
d-[] 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange(l,picflag-«1): 
smp x-[] 
b tz-np.array([0,0,0]) 
g tz-np.array([0,0,01]) 
r tz-np.array([0,0,0]) 
mytz-np.zeros((3,w fg*h fg)) 
for jj in xrange(1,3): 
fn-'p'«str(ii)«'-'«str(jj)-«'.png' 
tmptz-readpic(fn) 
mytz-«-np.array (tmptz) 
mytz/-3 
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train x.append(mytz[0].tolist()«mytz[1].tolist()«mytz[2].tolist()) 


fn-'ptest3.png' 
testtz-np.array(readpic(fn)) 
simtz-testtz[0].tolist()«testtz[1].tolist()«testtz[2].tolist() 
maxtz-0 
nowi=0 
for i in xrange(0,picflag): 
nowsim-get cossimi(train x[i],simtz) 
if nowsim»maxtz: 
maxtz-nowsim 
nowi-i 
print u'£s 属于 第 %d 类 '%(fn,nowi+1) 


fn-'ptestl.png' 
testtz-np.array (readpic(fn)) 
simtz-testtz[0].tolist()«testtz[1].tolist()«testtz[2].tolist() 
maxtz-0 
nowi=0 
for i in xrange(0,picflag): 
nowsim-get cossimi(train x[i],simtz) 
if nowsim»maxtz: 
maxtz-nowsim 
nowi-i 
print u'$s 属于 第 sa 类 '£(fn,nowi-«1) 


fn-'ptest2.png' 
testtz-np.array (readpic(fn)) 
simtz-testtz[0].tolist()«testtz[1].tolist()«testtz[2].tolist() 
maxtz-0 
nowi=0 
for i in xrange(0,picflag): 
nowsim-get cossimi(train x[i]l,simtz) 
if nowsim»maxtz: 
maxtz-nowsim 
nowi-i 
print u'$s 属于 第 $d 类 '%(fn,nowi+1) 


运行 上 述 代 码 ， 观 察 下 面 的 运行 结果 ， 可 见 对 算法 任务 中 列举 的 图 像 识别 效果 不 错 。 


正在 处 理 中 

ptest3.png 属于 第 3 类 
ptest1.png 属于 第 1 类 
ptest2.png 属于 第 2 类 


本 节 中 每 个 类 别 仅 使 用 了 3 个 样本 ， 基 于 余弦 相似 度 的 算法 在 样本 量 较 小 的 情况 下 ， 效 


果 其 实 不 是 最 佳 的 。 例如: 在 测试 图 像 中 加 入 另 一 张 测试 图 ， 要 用 基于 余弦 相似 度 算法 将 它 
分 类 ， 那 会 怎样 ? 修改 10-7.py， 代 码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq. com 
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#10-8.py 

# 余弦 距离 识别 图 像 类 型 ， 有 一 张 图 像 不 能 正确 识别 
import numpy as np 

import cv2 


print u' 正在 处 理 中 ，' 





fn2'ptest22.png' 
testtz-np.array (readpic(fn)) 
simtz-testtz[0].tolist()«testtz[1].tolist()«testtz[2].tolist() 
maxtz=0 
nowi=0 
for i in xrange(0,picflag): 
nowsim-get cossimi (train x[i],simtz) 
if nowsim»maxtz: 
maxtz-nowsim 
nowi-i 
print u'$s 属于 第 $a 类 '$ (£n, nowi«1) 


程序 运行 结果 如 下 : 


正在 处 理 中 

ptest3.png 属于 第 3 类 
ptestl.png 属于 第 1 类 
ptest2.png 属于 第 2 类 
ptest22.png 属于 第 3 X 


从 上 述 结果 看 ， 图 像 ptest22.png (如 图 10-13 所 示 ) 被 错误 地 分 到 了 第 三 类 ， 实 际 它 属 


于 第 二 类 树林 风景 图 像 。 





图 10-13 FIRR 


10.3.2 PCA 图 像 特 征 提取 算法 


PCA 算法 基于 变量 协 方差 矩阵 对 信息 进行 压缩 和 处 理 ， 通 常用 于 数据 降 维 ， 可 将 它 用 于 
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图 像 矩 阵 降 维 ， 以 降 维 后 的 矩阵 为 基础 提取 图 像 特征 。 当 提取 的 图 像 特征 维度 比较 高 时 ， 为 
了 简化 计算 量 以 及 存储 空间 ， 需 要 对 这 些 高 维 数据 进行 一 定 程度 上 的 降 维 ， 并 尽量 保证 数据 
不 失真 。 此 外 ，PCA 算法 还 可 应 用 于 图 像 矩阵 ， 它 能 找到 变化 大 的 维 ， 去 除 掉 那 些 变化 不 大 
的 维 ， 这 样 能 更 有 效 地 提取 图 像 明显 特征 ， 便 于 后 期 识别 算法 并 进一步 加 工 ， 因 为 图 像 特征 
组 含有 的 不 明显 的 特征 值 将 会 影响 识别 的 精度 。 

应 用 PCA 降 维 技术 ， 对 上 节 讲 述 的 图 像 特 征 码 算法 进行 改进 ， 返 回 图 像 特征 码 。 下 面 
是 用 Python 实现 的 基于 PCA 的 图 像 特征 码 算 法 。 


def readpic(fn): 
# 返回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (500,400)) 
w-img.shape[1] 
h-img.shape[0] 
w interval-w/20 
h interval-h/10 
alltzz[l 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 


b = img[now h:now h«h interval,now w:now w«w interval,0] 
g = img[now h:now h-h interval,now w:now w«w interval,l] 
r = img[now h:now h«h interval,now w:now w«w interval,2] 


btz-np.mean(b) 
gtz-np.mean(g) 
rtz-np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result alltz-np.array(alltz).T 
pca - mlpy.PCA() 
pca.learn(result alltz) 
result alltz - pca.transform(result alltz, k-len(result alltz)/2) 
result alltz -result alltz.reshape(len(result alltz)) 
return result alltz 


下 一 节 的 神经 网 络 与 SVM 图 像 分 类 算法 将 基于 本 节 描 述 的 PCA 技术 提取 图 像 特 征 码 ， 
然后 进一步 分 析 和 计算 ， 得 到 图 像 所 属 类 别 。 


10.3.3 ”基于 神经 网 络 的 图 像 分 类 

基于 神经 网 络 的 图 像 分 类 算法 比 余弦 相似 度 分 类 算法 的 普 适 性 更 好 ， 准 确 率 更 高 。 

1. 算法 描述 

神经 网 络 图 像 分 类 算法 首先 通过 PCA 技术 提取 样本 图 像 特征 码 与 待 分 类 图 像 特征 码 ， 
然后 将 特征 码 送 入 神经 网 络 进行 训练 ， 让 神经 网 络 学 习 每 个 类 别 图 像 的 特征 ， 最 后 将 未 知 类 
别 图 像 送 入 神经 网 络 ， 自 动 识别 它 的 类 型 。 其 步骤 如 下 : 

1) 基于 PCA 技术 提取 每 个 样本 的 图 像 特征 码 。 

2) 根据 样本 特征 码 生 成 输入 项 ， 根 据 样本 所 属 类 别 生成 对 应 的 输出 项 。 
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3) 将 输入 与 输出 项 送 入 非 线 性 神经 网 络 训 练 。 

4) 基于 PCA 技术 生成 待 分 类 图 像 的 特征 码 。 

5) 将 待 分 类 图 像 的 特征 码 送 入 神经 网 络 仿真 测试 ， 根 据 神 经 网 络 输出 项 判断 其 所 属 
类 别 。 

2. 输出 目标 设计 

神经 网 络 的 输出 目标 以 及 输出 函数 的 设计 应 本 着 灵活 实用 的 原则 。 在 本 例 中 ， 神 经 网 络 
的 输出 值 为 3 个 图 像 类 别 ， 用 数字 1 ~ 3 来 表示 ， 但 不 能 直接 将 数字 作为 目标 输出 值 。 常 用 
的 表示 方式 有 以 下 几 种 。 

口 将 数字 转换 为 1 以 内 的 小 数 。 比 如 : 乘 以 输出 值 的 最 大 数 的 倒数 进行 调整 等 。 

口 按照 二 进 制 编码 的 思路 ， 将 其 设计 为 如 下 形式 : 

1:[0,0,1] 

2:[0,1,0] 

3:[0,1,1] 

或 者 ， 设 计 为 以 下 格式 〈 本 例 采 用 这 种 格式 ): 

1:[0,0,1] 

2:[0,1,0] 

3:[1,0,0] 

输出 函数 的 设计 原则 是 : 将 输出 目标 值 转化 为 实际 样本 的 输出 值 格 式 。 本 例 中 将 其 定义 为 : 

神经 网 络 输出 值 = 输出 目标 值 的 最 大 值 所 在 的 数组 索引 


3. Python 实现 
下 面 来 看 看 图 像 特 征 码 计算 ， 代 码 如 下 : 


def readpic(fn): 
# 返回 图 像 特 征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (500,400)) 
w-img.shape[i] 
h-img.shape[0] 
w interval-w/20 
h interval-h/10 
alltss[] 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 





b = img[now h:now h«h interval,now w:now w«w interval,0] 
g = img[now h:now h«h interval,now w:now ww interval,1] 
r = img[now h:now h«h interval,now w:now w-w interval,2] 


btz-np.mean (b) 
gtz-np.mean(g) 
rtz-np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result alltz-np.array(alltz).T 
pca - mlpy.PCA() 
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pca.learn(result, alltz) 

result alltz - pca.transform(result alltz, k-len(result alltz)/2) 
result alltz -result, alltz.reshape(len(result alltz)) 

return result alltz 


接着 是 输入 与 输出 项 初始 化 。 代 码 如 下 : 


#x 和 ad 样本 初始 化 
train x =[] 
d-[] 

sp.d-[] 


sp d.append([0,0,1]) 

sp d.append([0,1,0]) 

sp d.append([1,0,0]) 

# 读 取 图 片 

for ii in xrange(1,4): 

for jj in xrange(1,4): 

fÍns'p'4gtr(ii)s'-'4strí(jj)t'.png' 
pictz-readpic(fn) 
train x.append(pictz) 
d.append(sp d[ii-1]) 

myinput-np.array(train x) 

mytarget-np.array (d) 


下 面 来 看 看 训练 效果 。 误 差 曲线 如 图 10-14 所 示 。 
程序 运行 后 ， 识 别 效果 如 下 : 














10 T T T T 
训练 神经 网 络 完毕 
对 样本 进行 测试 8 
Pr iw de E. Ar De X. 2 3] a | 
进行 仿真 i | 
-2--ptest3.png--- & 
[[ 0.96680714 0.00471284 -0.04523491]] 3 | | 
[3] s^ 
---ptestl.png--- zi 
[[ 0.10858063 -0.00820875 0.95785349]] 2l | 
[1] 
===ptest2 .png=== 0 "A i i 
[E 0.01738297 0.99945777 -0.01017012]] 0 10 20 30 40 50 
[2] Epoch number 
É:septestzl.pngsss 、 
[[ 0.95422417 0.00308943 0.1221383.4]] 图 10-14 误差 曲线 
[3] 


[[-0.26776152 — -0.121228571] 

[2] 

最 后 几 行 表 明 ， 无 法 被 余弦 相似 度 正确 分 类 的 ptest22.png 被 神经 网 络 分 类 成 功 ， 但 
ptest21.png (如 图 10-15 所 示 ) 被 错误 分 类 。 因 为 神经 网 络 与 SVM 的 不 同 之 处 在 于 ， 神 经 网 
络 训练 需要 更 多 的 样本 进行 训练 (本 例 仅 使 用 3 个 样本 )， 和 否则 不 一 定 能 取得 更 好 的 识别 效果 。 

完整 的 Python 代码 如 下 : 
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图 10-15 ”错误 分 类 的 图 像 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
dcode:myhaspl8qg.com 
#10-9 .py 

#PCA 加 上 人 工 神经 网 络 识别 图 像 类 型 
import numpy as np 
import pylab as pl 
import neurolab as nl 
import cv2 

import mlpy 

print u' 正在 处 理 中 ， 

def getresult(simjg): 


jg=[] 

for j in xrange(0,len(simjg)): 
maxjg=-2 
nowii=0 


for i in xrange(0,len(simjg[0])): 
if simjg[jl[il»maxjg: 
maxjg-simjg[j][i] 
nowii-i 
jg.append(len(simjg[0])-nowii) 
return jg 
def readpic(fn): 
# 返回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (500,400)) 
w-img.shape[1] 
h-img.shape[0] 
w interval-w/20 
h interval-h/10 
alltz-[] 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 
b = img[now h:now h«h interval,now w:now w«w interval,0] 
g img[now h:now h-«h interval,now w:now w«w interval,l] 
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E= img[now_h:now_h+h_interval,now_w:now_w+w_interval,2] 
btz=np.mean (b) 
gtz=np.mean (g) 
rtz-np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result alltz-np.array(alltz).T 
pca - mlpy.PCA() 
pca.learn(result alltz) 
result alltz - pca.transform(result alltz, k-len(result alltz)/2) 
result alltz -result alltz.reshape(len(result alltz)) 
return result alltz 


ix 和 a 样本 初始 化 
train x -[] 
d-[] 

sp. d-[(] 


sp d.append([0,0,11]) 
sp d.append([0,1,0]) 
sp d.append([1,0,0] 
8 读 取 图 像 
for ii in xrange(1,4): 
for jj in xrange(1,4): 
fn-'"p'«str(ii)s'-'4str(jj)*'.png' 
pictz-readpic(fn) 
train x.append(pictz) 
d.append(sp d[ii-1] 
myinput-np.array(train x) 
mytarget-np.array (d) 
mymax-np.max(myinput) 
netminmax-[] 
for i in xrange(0,len(myinput[0])): 
netminmax.append([0,mymax]) 


print u'An 正在 建立 神经 网 络 ， 


bpnet = nl.net.newff(netminmax, [5, 3]) 


print u'Vn 训练 神经 网 络 中 . . .， 
err = bpnet.train(myinput, mytarget, epochs-800, show-5, goal-0.2) 
if err[len(err)-1]50.4: 
print u'\n 训练 神 经 网 络 失 败 .. .Nn 
else: 
print u'\n 训练 神经 网 络 完 毕 ，' 
pl.subplot(111) 
pl.plot (err) 
pl.xlabel('Epoch number') 
pl.ylabel('error (default SSE)') 
print u" 对 样本 进行 测试 " 
simd- bpnet.sim(myinput) 
mysimd-getresult (simd) 
print mysimd 
print u" 进行 仿真 " 
testpictz-np.array([readpic('ptest3.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult(simtest) 
print "---ptest3.png---" 
print simtest 
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print mysimtest 
testpictz-np.array([readpic('ptestl.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult(simtest) 

print 'z--ptesti.png---* 

print simtest 

print mysimtest 
testpictz-np.array([readpic('ptest2.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult (simtest) 

print "s--ptest2.png--z" 

print simtest 

print mysimtest 
testpictz-np.array([readpic('ptest21.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult(simtest) 

print "---ptest21.png---" 

print simtest 

print mysimtest 
testpictz-np.array([readpic('ptest22.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult(simtest) 

print "---ptest22.pngzs-z-" 

print simtest 

print mysimtest 

pl.show() 


10.3.4 ”基于 SVM 的 图 像 分 类 


在 样本 量 少 的 情况 下 ，SVM 分 类 的 效果 是 最 佳 的 。SVM 算法 相 比 神经 网 络 的 优势 在 于 : 


只 需要 少量 样本 ， 就 能 达到 较 高 的 识别 精度 。 


1. 算法 描述 
SVM 图 像 分 类 算法 首先 通过 PCA 技术 提取 样本 图 像 特征 码 与 待 分 类 图 像 特征 码 ， 然 后 


将 特征 码 送 入 SVM 进行 训练 ， 学 习 每 个 类 别 图 像 的 特征 ， 最 后 将 未 知 类 别 图 像 送 入 SVM 仿 
真 测试 ， 自 动 识别 它 的 类 型 。 步 又 如 下 : 


1) 基于 PCA 技术 提取 每 个 样本 的 图 像 特征 码 。 

2 ) 根据 样本 特征 码 生 成 输入 项 ， 根 据 样本 所 属 类 别 生 成 对 应 的 输出 项 。 

3 ) 将 输入 与 输出 项 送 入 SVM 训练 。 

4) 基于 PCA 技术 生成 待 分 类 图 像 的 特征 码 。 

5) 将 待 分 类 图 像 的 特征 码 送 入 SVM 仿真 测试 ， 根 据 SVM 输出 项 判断 其 所 属 类 别 。 
其 中 ，SVM 的 输出 目标 可 以 直接 使 用 类 别 序号 (在 本 例 中 为 数字 1 ~ 3 )。 


2. Python 实现 
1) 输入 与 输出 项 的 初始 化 。 代 码 如 下 : 
ix 和 a 样本 初始 化 


train x =[] 
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d-[] 
# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange(l,picflag41): 
smp. x-[] 
mytz-np.zeros((3,w fg*h fg)) 
for jj in xrange(1,4): 
fn-'p'«str(ii)«'-'«str(jj)*'.png' 
tmptz-readpic(fn) 
train x.append(tmptz.tolist()) 
d.append(ii) 


2) SVM 训练 与 仿真 训练 。 代 码 如 下 : 


x=np.array (train x) 

y-np.array (d) 

svm - mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-50) 
svm.learn(x, y) 

print svm.pred(x) 


3) 识别 效果 。 如 下 所 示 : 


正在 处 理 中 
Dl. Ai Ll. Za 22 2v. | 
ptest3.png 属于 第 3 类 
ptestl.png 属于 第 1 类 
ptest2.png 属于 第 2 类 
ptest21.png 属于 第 2 X 
ptest22.png 属于 第 2 类 


相对 神经 网 络 而 言 ， 在 每 个 类 别 仅 有 3 个 样本 的 情况 下 ， 所 有 的 测试 图 像 得 到 了 正确 的 分 类 。 
以 下 是 完整 的 代码 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#10-10.py 

#PCA 加 上 SVM 识别 图 像 类 型 

import numpy as np 

import cv2 

import mlpy 

print u' 正 在 处 理 中 ， 

w fg-10 

h fg-5 

picflag-3 

def readpic(fn): 
# 返回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (400,200)) 
w-img.shape[1] 
h-img.shape[0] 
w interval-w/w. fg 
h interval-h/h fg 
abltzsl] 
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for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 
b = img[now h:now h«h interval,now w:now w-«w interval,0] 
g 
r = img[now h:now h«h interval,now w:now w-*w interval,2] 


img[now h:now h«h interval,now w:now wiw_ interval,l1] 


btz-np.mean(b) 
gtz-np.mean(g) 
rtz-np.mean(r) 
alltz.append(l[ 
result alltz-np.array( 
pca - mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k-len(result alltz)/2) 
result alltz -result alltz.reshape(len(result alltz)) 
return result alltz 


btz,gtz,rtz]) 
alltz).T 





ix 和 a 样本 初始 化 
train x -[] 
d-[] 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange(1,picflag+1): 
smp x-[] 
mytz-np.zeros((3,w fg*h fg)) 
for jj in xrange(1,4): 
fn-'p'estr(ii)-'-'«str(jj)«'.png' 
tmptz-readpic(fn) 
train x.append(tmptz.tolist()) 
d.append(ii) 
x-np.array(train x) 
y-np.array(d) 
svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-50) 
svm.learn(x, y) 
print svm.pred(x) 
fn-'ptest3.png' 
testtz-np.array (readpic(fn)) 
nowi-svm.pred(testtz) 
print u'$s 属于 第 $d 类 '£(fn,nowi) 
fn-'ptesti.png' 
testtz-np.array (readpic(fn)) 
nowi-svm.pred(testtz) 
print u'$s 属于 第 sd X '$(£n,nowi) 
fn-2'ptest2.png' 
testtz-np.array (readpic(fn)) 
nowi-svm.pred(testtz) 
print u'$s 属于 第 $d 类 '$S(£n,nowi) 
fn-'ptest21.png' 
testtz-np.array (readpic(fn)) 
nowi-svm.pred(testtz) 
print u'$s 属于 第 sd 类 '&(£n,nowi) 
fn-'ptest22.png' 
testtz-np.array (readpic(fn)) 
nowi-svm.pred(testtz) 
print u'$s 属于 第 $a '$(fn,nowi) 
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10.4 高 斯 噪声 生成 


噪声 可 理解 为 妨碍 人 们 的 感觉 器 官 去 正确 理解 所 接收 的 信 源 信息 的 因素 ， 图 像 中 各 种 会 
妨碍 人 们 接受 其 信息 的 因素 都 可 称 为 图 像 噪声 ， 噪 声 在 理论 上 可 以 定义 为 “不 可 预测 ， 只 能 
用 概率 统计 的 方法 来 认识 的 随机 误差 ”。 图 像 噪声 在 数字 图 像 处 理 技术 中 的 重要 性 越 来 越 明 
显 。 图 像 噪声 按 其 产生 的 原因 可 以 分 为 : 

1) 外 部 噪声 。 指 系统 外 部 的 干扰 以 电磁 波 或 经 电源 串 进 系统 内 部 而 引起 的 噪声 。 如 电 
气 设备 、 天 体 放 电 现 象 等 引起 的 噪声 。 

2) 内 部 噪声 。 一 般 可 分 为 以 下 四 种 : 

O 由 光 和 电 的 基本 性 质 所 引起 的 噪声 。 如 电流 的 产生 是 由 电子 或 空 穴 粒 子 的 集合 ， 定 向 

运动 所 形成 的 。 

O 电器 的 机 械 运 动产 生 的 噪声 。 如 各 种 接头 因 抖 动 引 起 电流 的 变化 所 产生 的 噪声 ; 磁头 、 

磁带 等 抖动 或 仪器 的 抖动 等 。 

O 器 材 材料 本 身 引 起 的 噪声 。 如 正片 和 负片 的 表面 颗粒 性 和 磁带 磁盘 表面 的 缺陷 所 产生 

的 噪声 。 
口 系统 内 部 设备 电路 所 引起 的 噪声 。 如 电源 引入 的 交流 噪声 ; 偏转 系统 和 箱 位 电路 所 引 
起 的 噪声 等 。 

既然 噪声 是 不 可 避免 ， 那 么 在 图 像 处 理 的 过 程 中 ， 为 检验 图 像 算法 的 有 效 性 ， 需 要 人 为 
地 生成 一 些 噪声 来 模拟 现实 的 环境 。 

下 面 以 加 性 零 均 值 高 斯 噪声 为 例 ， 通 过 在 灰 度 图 上 加 上 这 类 高 斯 品 声 进行 噪声 仿真 。 具 
体 方法 是 : 在 每 个 点 的 灰 度 值 上 加 上 一 个 噪声 值 ， 噪 声 值 的 产生 方式 为 Box-Muller 算法 生成 
高 斯 噪声 。Box-Mnuller 方法 是 产生 随机 数 的 一 种 方法 ， 算 法 隐 含 的 原理 非常 深奥 ， 但 是 结果 
却 相 当 简 单 。 它 一 般 是 要 得 到 服从 正 态 分 布 的 随机 数 ， 基 本 思想 是 先 得 到 服从 均匀 分 布 的 随 
机 数 ， 再 将 服从 均匀 分 布 的 随机 数 转变 为 服从 正 态 分 布 。Box-Muller 算法 的 具体 过 程 如 下 : 

1) 假设 图 像 的 灰 阶 范围 是 [ 0,G-1 ]。 取 o>0: 它 的 值 越 小 时 ， 相 应 的 噪声 也 越 小 。 

2) 针对 每 对 水 平 相 邻 的 像素 Gy), Guy) 产生 一 对 位 于 [0,1] 的 独立 随机 数 > 和 o. 

3 ) 计算 以 下 值 : 

ZI=0 cos(2TG) N-Inr 
Z;-c sin(29) N-Inr 
上 式 中 , Z Æ Z IAA 0 HAA o 3: IE) Hi. 
4) 设 g 为 输入 图 像 ， 计 算 以 下 值 : 
fe y)y-29y)*Z 
f(xy+1)=g(x,y+1)+2; 
5) 计算 fy) A fayt) 的 值 : 


0 f(xy)<0 
Jixzy)=1G-1  f(xy)G-1 


Quy) ”其 他 
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0 f'Gxy * 1)«0 
foy tl) 3 G-1 f(xy + 1)>G-1 
Quy-1) 其 他 
6) 反复 执行 第 3 至 第 5 步 ， 直 到 像素 点 处 理 完毕 为 止 。 
下 面 以 Python 代码 来 实现 对 某 图 像 的 加 高 斯 噪声 的 操作 ， 如 程序 10-11.py 所 示 。 


+ -*- coding: utf-8 -=*= 

# 加 性 零 均值 高 斯 噪声 
#code:myhaspl@myhaspl .com 
#10-11 .py 

import cv2 

import numpy as np 


fn-"test112.jpg" 
myimg-cv2.imread(fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


param-30 

# X B SG, ESI 

grayscale-256 

w-img.shape[1] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
rl-np.random.random sample( 
r2-np.random.random sample( 
zl-param*np.cos(2*np.pi*r2Z)*np.sqgrt((-2)*np.log(rl]) 
z2-param*np.sin(2*np.pi*r2)*np.sqgrt((-2)*np.log(r1)) 


) 
) 


fxy-int (img[x,y]l-«z1) 

fxyl-int(img[x,y-«1]4z2) 

T£ (x,y) 

i£ Eyal: 

[xy valz0 

elif fxy»grayscale-1: 

[xy val-grayscale-1 

else: 

[xy val-fxy 

#f (x,y+1) 

Lf fxyl«0s 

Fxyl val-0 

elif fxyl»grayscale-1: 
fxyl val-grayscale-1 

else: 





fxyl val-fxyl 
newimg[x,y]-fxy. val 
newimg[x,y41]-fxyl val 
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cv2.imshow('preview',newimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


运行 程序 10-11.py， 结 果 如 图 10-16 所 示 。 





Kl 10-16 KJE 


图 像 高 斯 噪声 


第 10 章 


程序 10-12.py 实现 了 对 彩色 图 像 增 加 高 斯 噪声 ， 代 码 如 下 所 示 : 


$ -*- coding: ütf-8 -*- 

# 加 性 零 均值 高 斯 噪声 
#code:myhaspl@myhaspl .com 
4$10-12.py 

import cv2 

import numpy as np 


fnes"testil2.jpg" 
myimg-cv2.imread(fn) 
img-myimg 


param-30 

# Pri E 

grayscale-256 

w-img.shape[l] 

hzimg.shape[0] 
newimg-np.zeros((h,w,3),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
rl-np.random.random sample() 
r2-np.random.random sample() 


图 像 算法 案例 


zl-param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqgrt((-2)*np.log(r1)) 


fxy O0-int(img[x,y,0]^«z1) 
fxyl 0-int(img[x,y*1,0]4z2) 
fxy i-int(img[x,y,1]*z1) 
fxyl 1-int(img[x,y*1,1]-«z2) 
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fxy 2-int(img[x,y,2]-*z1) 
fxyl 2-int(img[x,y-*1,2]*z2) 
df (x,y) 

pf fxy O0«0: 

fxy val 0-0 

elif fxy O0»grayscale-1: 

fxy val 0-grayscale-1 
else: 

fxy val .0-fxy. 0 





if fxy 1«04 
fxy val 1-0 
elif fxy 1»grayscale-1: 
fxy val 1-grayscale-1 
else: 
fxy val 1-fxy 1 


if fxy 2«0t 
fy val, 220 
elif fxy 2»grayscale-1: 
fxy. val, 22grayscale-1 
else: 
Exy val 2=fxy 2 


#f£ (x,y+1) 
if fxyl Ox0's 
fxyl val 0-20 
elif fxyl O0»grayscale-1: 
fxyl val O-grayscale-1 
else: 
fxyl val 0-fxy1 0 


if fel i1e0; 
fxyl vel 1-20 
elif fxyl 1»grayscale-1: 
fxyl val l-grayscale-1 
else: 
fxyl val 1sfxy1. 1 


if £xyl1 2«0: 
fxyl, val 2-0 

elif fxyl 2»grayscale-1: 
fxyl val. 2-grayscale-1 

else: 
fxyl val, 2-fxy1 2 


newimg[x,y,0]-fxy. val. 0 
newimg[x,y,1]-fxy val 1 
newimg[x,y,2]-fxy val 2 
newimg[x,y41,0]-fxyl val O0 
newimg[x,y«1,1]-fxyl val 1 
newimg[x,y-«1,2]-fxyl. val 2 
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cv2.imshow('preview',newimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


程序 10-12.py 在 彩色 图 像 中 人 为 地 增加 了 若干 高 斯 噪声 ， 运 行程 序 ， 效 果 如 图 10-17 所 示 。 





图 10-17 ”彩色 图 像 加 高 斯 噪声 


10.5 二 值 化 


图 像 的 二 值 化 ， 就 是 将 图 像 上 像素 点 的 灰 度 值 设置 为 0 或 255， 也 就 是 将 整个 图 像 呈 现 
出 明显 的 只 有 黑 和 白 的 视觉 效果 ， 最 常用 的 方法 就 是 设 定 一 个 国 值 7， 用 了 将 图 像 的 数据 分 
成 两 部 分 : 大 于 了 的 像素 群 和 小 于 了 的 像素 群 。 


10.5.1 threshold 
可 调用 OpenCV 的 threshold 实现 二 值 化 ，Python 调用 此 方法 的 格式 如 下 : 


cv2.threshold(src, thresh, maxval, type[, dst]) — retval, dst 
该 方法 主要 有 以 下 核心 参数 : 
口 src: 输入 数组 ( 单 通道 、8 位 或 32 fv). 
口 dst: 二 值 化 输出 结果 的 矩阵 。 
O thresh: WE. 
O maxval: 二 值 化 中 除 0 以 外 的 其 他 值 。 
口 type: 二 值 化 类 别 。 主 要 有 以 下 几 种 : 
e THRESH BINARY 


maxval src(x,y)^thresh 


dst(x,y)- | 0 其 他 


e THRESH BINARY INV 


ww ai bbt. con DHL DH DB 


402 ws 第 四 部 分 “机 器 学 习 实战 篇 


|. 10 src(x,y)^thresh 
dst(x)- P 其 他 


e THRESH TRUNC 


threshold src(x,y)^thresh 


dst(x,y)- je mn 其 他 


e THRESH TOZERO 


_ J sre(x,y) src(x,y)^thresh 
dst(x,y) | 0 其 他 
e THRESH TOZERO INV 
0 src(x,y)^thresh 
dst - 

s (oec X 
编写 程序 10-13.py， 对 某 图 像 进行 二 值 化 ， 效 果 如 图 10-18 所 示 。 
#10-13 .py 
import cv2 
fn-"test3.jpg" 
myimg-cv2.imread(fn) 
img-cv2.cvtColor(myimg,cv2.COLOR BGR2GRAY) 
retval, newimg-cv2.threshold(img,40,255,cv2.THRESH BINARY) 
cv2.imshow('preview',newimg) 


cv2.waitKey() 
cv2.destroyAllWindows () 


10.5.2 adaptiveThreshold 


OpenCV 的 adaptiveThreshold 函数 可 完成 自 适应 二 值 化 ， 也 可 以 提取 边缘 。Python 调用 
此 方法 的 格式 如 下 : 


cv2.adaptiveThreshold(src, maxValue, adaptiveMethod, thresholdType, blockSize, 
Cir dst]) > dst 


该 函数 的 核心 参数 如 下 : 

O block size : 决定 局 部 阔 值 的 block 的 大 小 ，block 很 小 时 ， 如 block size=3、5、7 时 ， 
表现 为 边缘 提取 函数 。 当 把 block_ size 设 为 比较 大 的 值 时 ， 如 block size-21. 51 等 ， 
就 是 二 值 化 。 

口 sre: 输入 数组 ( 单 通道 、8 位 或 32 位 )。 

O dst: 二 值 化 输出 结果 的 矩阵 。 

口 thresholdType : 二 值 化 类 型 ， 为 THRESH BINARY 或 THRESH BINARY INV, Ji 
10.5.1 节 对 该 参数 的 说 明 。 

编写 程序 10-14.py， 进 行 二 值 化 ， 效 果 如 图 10-19 所 示 。 


#10-14.py 
import cv2 


fn-"test3.jpg" 
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myimg-cv2.imread(tn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 





newimg-cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE THRESH MEAN C,cv2.THRESH 
BINARY,5,2) 


cv2.imshow('preview',newimg) 
cv2.waitkKey() 
cv2.destroyAllWindows() 






Qu b 


图 10-18 二 值 化 图 10-19  adaptiveThreshold 二 值 化 
程序 10-15.py 演示 了 通过 二 值 化 提取 边缘 ， 效 果 如 图 10-20 所 示 。 


4$10-15.py 
import cv2 


fn-"test3.jpg" 
myimg-cv2.imread(fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


newimg-cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE THRESH MEAN C,cv2.THRESH 
BINARY,51,2) 


cv2.imshow('preview',newimg) 
cv2.waitKey() 
cv2.destroyAllWindows () 


边缘 
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10.6 ”插值 与 缩放 
通过 OpenCV 的 resize 函数 可 实现 搬 值 与 缩放 。Python 调用 该 函数 的 格式 如 下 : 


cv2.resize(src, dsize[, dst[, fx[, fyl: interpolation]]1]]) — dst 


该 函数 的 interpolation 参 数 可 分 别 设 为 INTER_ NEAREST (最 近邻 插值 )、INTER_ 
LINEAR ( 双 线 性 插值 )、INTER_AREA (像素 关系 重 采 样 )、INTER_CUBIC ( 双 立 方 插值 )、 
INTER_LANCZOS4 ( 8x 8 像素 邻 域 内 Lanczos 插值 )。 

程序 10-16.py 演示 了 插值 与 缩放 的 操作 ， 效 果 如 图 10-21 所 示 。 


# -*- coding: utf-8 -*- 
410-16.py 


import cv2 


fns"testil12.jpg* 
img-cv2.imread(fn) 
w-img.shape[l] 
h-img.shape[0] 


# 放大 ， 双 立方 插值 

newimgl-cv2.resize(img, (w*2,h*2),interpolation-cv2.INTER CUBIC) 

# 放大 ， 最 近邻 插值 

newimg2-cv2.resize(img, (w*2,h*2),interpolation-cv2.1NTER NEAREST) 
# 放大 ， 像 素 关系 重 采 样 
newimg3-cv2.resize(img,(w*2,h*2),interpolation-cv2.1INTER AREA) 

# 缩小 ， 像素 关系 重 采 样 


newimg4-cv2.resize(img,(300,200),interpolation-cv2.INTER, AREA) 


cv2.imshow('previewl',newimgl) 
cv2.imshow('preview2',newimg2) 
cv2.imshow('preview3',newimg3) 
cv2.imshow('preview4',newimg4) 
cv2.waitKey() 
cv2.destroyAllwindows() 





图 10-21 插值 与 缩放 
wwaibbt.com DDD00000 


第 10 章 图 像 算法 案例 $e 405 


10.7 4l 


10.7.1 1584538 
仿 射 变换 ， 又 称 仿 射 映 射 ， 是 指 在 几何 中 ， 一 个 向 量 空间 进行 一 次 线性 变换 并 接 上 一 个 
平移 ， 变 换 为 另 一 个 向 量 空间 ， 它 可 对 图 像 进行 缩放 、 旋 转 、 平 衡 等 操作 。 
一 个 对 向 量 x 平 移 5， 与 旋转 放大 缩小 4 的 仿 射 映射 为 : 
y= Az+D 
上 式 在 齐 次 坐标 上 ， 等 价 于 下 面 的 式 子 : 


Hece 


为 了 表示 仿 射 变换 ， 需 要 使 用 齐 次 坐标 ， 即 用 三 维 向 量 (xy) 表示 二 维 向 量 ， 对 于 高 
维 来 说 也 是 如 此 。 按 照 这 种 方法 ,就 可 以 用 和 矩阵 乘法 表示 变换 。x'=x+tt:; y'=yH, 变 为 


ES 1 0 £ifx 
HU 
1 0 6 I/VX1 
在 矩阵 中 增加 一 列 与 一 行 ， 除 右 下 角 的 元 素 为 1 外 其 他 部 分 均 填 充 为 0， 通过 这 种 方法 ， 
所 有 的 线性 变换 都 可 以 转换 为 仿 射 变换 。 例 如 ， 上 面 的 旋转 矩阵 可 变 为 


cosÓÜ -sinÓ 0 
区 COSO ] 
0 0 1 
通过 这 种 方法 ， 使 用 与 前 面 一 样 的 矩阵 乘积 可 以 将 各 种 变换 无 颖 地 集成 到 一 起 。 


10.7.2 ” 仿 射 变换 实例 


1. warpAffine 
OpenCV 的 warpAffine 函数 可 实现 仿 射 变 换 ，Python 调用 此 方法 的 格式 如 下 : 
cv2.warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValuel]l1]) — dst 


该 函数 中 的 参数 M 表示 变换 矩阵 。 函 数 使 用 以 下 变换 公式 : 
dst(x,y)-src(Miix--Mizy Mis, Moix-Mz;y-Mo3) 
2. getRotationMatrix2D 
OpenCV 的 getRotationMatrix2D PR Zi T $E — 2E eft 2E RAEE, Python 调用 此 函数 的 格式 
如 下 : 


cv2.getRotationMatrix2D(center, angle, scale) 一 retval 


k B (l-a) » center * x-2 * center * y | 


- a PB:center:x+(l-a): center * y 
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其 中 ,a 与 8 的 计算 公式 如 下 : 
a=scale * cos angle 


b=scale * sin angle 
程序 10-17.py 演示 了 仿 射 变换 完成 缩小 并 旋转 
的 操作 ， 效 果 如 图 10-22 所 示 。 


4 -*— coding: utf-8 -*- 
#10-17.py 
import cv2 


fn-"test3.jpg" 

img-cv2.imread(fn) 

w-img.shape[1] 

h-img.shape[0] 

# 得 到 仿 射 变换 和 矩阵， 完成 旋转 

# 中 心 

mycenter- (h/2,w/2) 

# 旋转 角度 

myangle-90 

WARE 

myscale-0.5 

# 仿 射 变换 完成 缩小 并 旋转 

transform matrix-cv2.getRotationMatrix2D (m E i 
ycenter,myangle,myscale) 图 10-22 仿 射 变换 





newimg-cv2.warpAffine(img,transform matrix, (w,h)) 
cv2.imshow('preview',newimg) 


cv2.waitKey() 
cv2.destroyAllWindows() 


10.8 ”透视 投影 与 透视 变换 
10.8.1 ”透视 投影 原理 

三 维 计算 机 图 形 学 中 另外 一 种 重要 的 变换 是 透视 投影 。 与 平行 投影 沿 着 平行 线 将 物体 
投影 到 图 像 平 面 上 不 同 ， 透 视 投影 是 指 从 投影 中 心 这 一 点 发 出 的 直线 将 物体 投影 到 图 像 平面 
上 。 这 就 意味 着 距离 投影 中 心 越 远 的 投影 越 小 ， 距 离 越 近 的 投影 越 大 。 

最 简单 的 透视 投影 是 将 投影 中 心 作为 坐标 原点 ，z=1 作为 图 像 平面 ， 这 样 投影 变换 为 


' £i "m 7 

X'-. 了 = 二 ， 用 齐 次 坐标 表示 如 下 : 
x: 100 0\/x 
£l 0 1 6 5|» 
Z, 0.0 1 0||s 
Ww, Q 9 1 OA 


上 述 乘法 的 计算 结果 是 (xcwycszeyw。) = (xn2z)。 乘 法 计算 完毕 之 后 ， 通 常 齐 次 元 素 w 并 
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不 为 1， 所 以 为 了 映射 回 真实 平面 需要 进行 齐 次 除法 ， 即 每 个 元 素 都 除 以 we: 


x x,/w, 
时 的 
z z,Iw, 
更 加 复杂 的 透视 投影 可 以 与 旋转 、 缩 放 、 平 移 、 切 变 等 组 合 在 一 起 对 图 像 进 行 变换 。 
10.8.2 ”透视 投影 实例 


1. WarpPerspective 
OpenCV 提供 了 WarpPerspective 函数 ， 可 对 图 像 进行 透视 变换 。Python JA E KRH 


式 如 下 : 


cv2.warpPerspective(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]11) — dst 


该 函数 的 主要 参数 如 下 : 
口 map matrix: 3x3 变换 矩阵 。 
O flags: 插值 方法 和 以 下 开关 选项 的 组 合 ， 有 以 下 两 种 : 
e CV WARP FILL OUTLIERS : 填充 所 有 缩小 图 像 的 像素 。 如 果 部 分 像素 落 在 输入 
图 像 的 边界 外 ， 那 么 它们 的 值 设 定 为 fillval。 
e CV WARP INVERSE MAP : 指定 matrix 是 输出 图 像 到 输入 图 像 的 反 变换 ， 因 此 
可 以 直接 用 来 做 像素 插值 。 和 否则 ， 函 数 从 map matrix 得 到 反 变 换 。 
O fillval: 用 来 填充 边界 外 面 的 值 。 
该 函数 对 源 图 像 进行 转换 的 计算 公式 如 下 : 
Mx +My 十 Ma Max + May + L 


dst(x,y)-src ; 
M3ıx + May -M3i Mix May + M33 


2. GetPerspectiveTransform 

OpenCV 提供 了 GetPerspectiveTransform 函数 ， 以 四 边 形 的 4 个 点 计算 透射 变换 。 
Python 调用 该 函数 的 格式 如 下 : 

cv2.getPerspectiveTransform(src, dst) — retval 

该 函数 的 主要 参数 如 下 : 

口 src: 输入 IDR 的 四 边 形 顶点 坐标 。 


O dst: 输出 的 相应 的 四 边 形 顶 点 坐标 。 
该 函数 对 3 x 3 的 透射 变换 矩阵 的 计算 公式 如 下 : 


tX; Xi 

ty; | =map_matrix * | Y; 

ti 1 
HB, dst(-(x4 y), sre()=(x, y), i90,1,2,3. 
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3. 透射 变换 和 矩阵 计算 实例 
程序 10-18.py 演示 了 如 何 计算 透射 变换 和 矩阵。 


# -*- coding: uttf-8 -*- 

#10-18.py 

import cv2 

import numpy as np 

fn="test112.jpg" 

img=cv2.imread (fn) 

w=img.shape[1] 

h=img.shape[0] 

# 得 到 透射 变换 矩阵 

src-np.array([I[0,01, [w-1,0], [w-1,h-1], [O,h-1]], dtvpe = np.float32) 

dst-np.array([[w*0.08,h*0.01], [w*0.8, h*0.25], [w*0.8,h*0.9], [w*O.05,h*0.8]], dty 
pe = np.f10oat32) 


transform matrix-cv2.getPerspectiveTransform(src,dst) 
# 输出 透射 变换 矩阵 


print transform matrix 


cv2.waitKey() 
cv2.destroyAllWindows() 


运行 程序 10-18.py， 输 出 透射 变换 矩阵 ， 结 果 如 下 所 示 : 


[[ 8.98634886e-01 -5.70473560e-02 5.12000008e+01] 
[ 1.66413868e-01 7.60111420e-01 3.59999990e+00] 
[ 3.46695559e-04 -1.11420617e-04 1.00000000e+00] ] 


4. 透射 变换 实例 
程序 10-19.py 演示 了 透射 变换 ， 效 果 如 图 10-23 所 示 。 


非 -*- coding: utf-8 -*- 

#10-19.py 

import cv2 

import numpy as np 

fn-"test112.jpg" 

img-cv2.imread(fn) 

w-img.shape[l1] 

h-img.shape[0] 

# 得 到 透射 变换 和 矩阵 

src-np.array([[0,01,[w-1,0],Iw-1,h-1],[0,h-1]]; dtype = np.float32) 

dst-np.array([[w*0.08,h*0.01],[w*0.8,h*0.25], [w*0.8, h*0.91, [w*0.05,h*0.8]], dty 
pe = np.float32) 

transform matrix-cv2.getPerspectiveTransform(src,dst) 

print transform matrix 

# 透射 变换 完成 变形 

newimg-cv2.warpPerspective(img,transform matrix, (w,h)) 

cv2.imshow('preview',newimg) 

cv2.waitKey() 

cv2.destroyAllWindows() 
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图 10-23 ”透射 变换 


10.9 灰 度 变换 与 图 像 增强 


10.9.1 ” 灰 度 变换 概述 

在 计算 机 领域 中 ， 灰 度 (Gray Scale) 数字 图 像 是 每 个 像素 只 有 一 个 采样 颜色 的 图 像 。 这 
类 图 像 通常 显示 为 从 最 暗黑 色 到 最 亮 的 白色 的 灰 度 ， 尽 管理 论 上 这 个 采样 可 以 是 不 同 深浅 的 
任何 颜色 ， 甚 至 可 以 是 不 同 亮度 上 的 不 同 颜色 。 灰 度 图 像 与 黑白 图 像 不 同 ， 在 计算 机 图 像 领 
域 中 黑白 图 像 只 有 黑白 两 种 颜色 ， 灰 度 图 像 在 黑色 与 白色 之 间 还 有 很 多 级 的 颜色 深度 。 用 于 
显示 的 灰 度 图 像 通常 用 每 个 采样 像素 8 位 的 非 线 性 尺度 来 保存 ， 这 样 就 可 以 有 256 种 灰 度 
( 即 2 的 8 次 方 =256) 了 。 这 种 精度 刚刚 能 够 避免 可 见 的 条 带 失 真 ， 并 且 非 常 易于 编程 。 灰 
度 图 像 是 一 种 具有 从 黑 到 白 256 级 灰 度 色 阶 或 等 级 的 单 色 图 像 。 该 图 像 中 的 每 个 像素 均 用 8 
位 数据 表示 ， 因 此 像素 点 值 介 于 黑白 间 的 256 种 灰 度 中 的 一 种 。 该 图 像 只 有 灰 度 等 级 ， 没 有 
颜色 的 变化 。 

灰 度 变换 是 基于 点 操作 的 增强 方法 ， 它 将 每 一 个 像素 的 灰 度 值 按照 一 定 的 数学 变换 公式 
转换 为 一 个 新 的 灰 度 值 ， 它 能 增强 图 像 ， 扩 展 图 像 的 对 比 度 ， 使 图 像 变 清晰 ， 使 其 特征 更 加 
突出 ， 灰 度 非 线性 变换 是 指 将 灰 度数 据 按照 经 验 数据 或 某 种 算术 非 线性 关系 进行 变换 后 再 显 
示 。 灰 度 变 换 是 基于 点 操作 的 增强 方法 ， 它 将 每 一 个 像素 的 灰 度 值 按 照 一 定 的 数学 变换 公式 
转换 为 一 个 新 的 灰 度 值 ， 如 增强 处 理 中 的 对 比 度 增强 。 

10.9.2 ”对 数 变换 

对 数 变 换 对 图 像 的 低 亮度 区 有 较 大 的 扩展 而 对 高 亮度 区 进行 压缩 ， 简 言 之 就 是 增强 了 低 

值 灰 度 的 图 像 细 节 ， 灰 度 非 线性 变换 公式 如 下 : 


dst=Clog(1+src) 
程序 10-20.py 演示 了 对 数 变换 ， 效 果 如 图 10-24 所 示 。 
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4$10-20.py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread(fn) 
img-cv2.cvtColor(myimg,cv2.COLOR BGR2ZGRAY) 
jg .img-np.array(40*np.log(img-*1),np.uint8) 
cv2.imshow('src',img) 
cv2.imshow('dst',jg img) 

cv2.waitKey() 

cv2.destroyAllWindows() 





图 10-24 ”对 数 变 换 


观察 图 10-24， 左 边 的 是 经 过 非 线 性 变换 操作 的 图 ， 右 边 的 是 原 图 ， 左 边 的 低 亮度 区 更 


清晰 。 
10.9.3 “分 段 线性 变换 


分 段 线性 变换 将 图 像 的 值 域 分 成 多 个 值 域 并 进行 不 同 的 线性 变换 计算 ， 可 以 压缩 某 部 分 


灰 度 区 ， 扩 展 另 一 部 分 灰 度 区 间 ， 下 面 以 两 个 区 间 为 例 ， 编 写 程序 进行 变换 ， 如 程序 10-21.py 
所 示 。 


# -*- coding: utf-8 -*- 

# 分 段 线性 变换 
#code:myhaspl@myhaspl .com 
#10-21 .py 


import cv2 

import numpy as np 

fn="test4.jpg" 

myimg=cv2 .imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


w-img.shape[l1] 
h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


+H 
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Ds min-0 
Ds internal-804 中 间 
Ds max-255 
* 目标 
Dd min-0 
Dd internal-1604 中 间 
Dd max-255 
for m in xrange(h): 

for n in xrange(w): 

if img[m,n]»Ds min and img[m,n]«-Ds internal: 
newimg[m,n]-int((Dd internal-Dd min)/(Ds internal-Ds min)*(img[m,n]-Ds min)-4Dd . 
min) 
else: 
newimg[m,n]-int((Dd max-Dd internal)/(Ds max-Ds internal)*(img[m,n]-Ds 
internal)-«Dd, internal) 

print To 
cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
cv2.waitKey() 
cv2.destroyAllwindows () 


观察 图 10-25， 左 边 是 经 过 分 段 线性 变换 的 图 像 ， 右 边 是 原 图 像 ， 通 过 压缩 高 亮度 区 
扩展 低 亮度 区 ， 使 图 像 的 比 对 度 变 得 更 强 。 





图 10-25 分 段 线性 变换 


程序 10-21.py 的 代码 中 ， 各 变量 的 含义 如 下 : 
口 Ds_min 为 源 区 段 的 最 小 值 域 。 

口 Ds_internal 为 源 区 段 的 中 间 分 界 值 。 

D Ds max 为 源 区 段 的 最 大 值 域 。 

O Dd min 为 目标 区 段 的 最 小 值 域 。 

口 Dd_internal 为 目标 区 段 的 中 间 分 界 值 。 

O Dd max 为 目标 区 段 的 最 大 值 域 。 


10.9.4 ”指数 变换 


指数 变换 的 作用 是 扩展 图 像 的 高 灰 度 级 、 压 缩 低 灰 度 级 ， 可 用 于 亮度 过 高 的 图 像 。 指 数 
变换 的 基本 表达 式 如 下 : 
y= jea 1 
其 中 ， 参 数 bp、c 控制 曲线 的 变换 形状 ， 参数 a 控制 曲线 的 位 置 。 指 数 变 换 与 对 数 变 换 
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的 关系 如 图 10-26 所 示 。 
程序 10-22.py 演示 了 对 太阳 图 像 进行 指数 变换 ， 使 低 亮度 区 (温度 较 低 的 区 域 ) 不 再 显 
示 ， 突 出 亮度 区 (温度 较 高 的 区 域 )， 效 果 如 图 10-27 所 示 。 


# -*-— coding: utf-8 -*- 

# 指数 非 线性 变换 

dcode:myhasplemyhaspl.com 

1$10-22.py 

import cv2 

import numpy as np 

fn-"test5.jpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
bz1.3 

e30.2 

az0.2 
newimg-np.array(np.power(b,c*(img-a))-1,np.uint8) 





cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 











A 265 y) 
对 数 变换 
指数 变换 
fox, y) 
图 10-26 ”指数 变换 与 对 数 变换 图 10-27 指数 变换 





观察 图 10-27， 左 边 是 指数 变换 后 生成 的 图 ， 右 边 是 原 图 ， 左 图 的 高 亮度 区 显示 得 到 突 
出 ， 达 到 了 预期 的 效果 。 


10.9.5 ”直方 图 均衡 化 


直方 图 均衡 化 通常 用 来 增加 许多 图 像 的 全 局 对 比 度 ， 尤 其 是 当 图 像 的 有 用 数据 的 对 比 度 
相当 接近 的 时 候 。 通 过 这 种 方法 ， 亮 度 可 以 更 好 地 在 直方 图 上 分 布 。 这 样 就 可 以 用 于 增强 局 
部 的 对 比 度 而 不 影响 整体 的 对 比 度 。 在 灰 度 图 像 上 使 用 直方 图 均衡 化 的 方法 如 下 : 

设 有 一 灰 度 图 像 ， 让 ni; 表示 灰 度 i 出 现 的 次 数 ， 这 样 图 像 中 灰 度 为 i 的 像素 出 现 的 概率 
如 下 : 
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p.i) P i E 0-1 


其 中 , 工 是 图 像 中 所 有 的 灰 度数 ，n 是 图 像 中 所 有 的 像素 数 ,p 实际 上 是 图 像 的 直方 图 ， 
归 一 化 到 0..1。 把 c 作 为 对 应 于 p 的 案 计 概率 函数 ,定义 如 下 : 


c(i) =X pj) 


其 中 ，e 是 图 像 的 累计 归 一 化 直方 图 。 

然后 ， 创 建 一 个 形式 为 天 To 的 变化 ， 对 于 原始 图 像 中 的 每 个 值 它 都 产生 一 个 7， 这 样 
上 的 累计 概率 函数 就 可 以 在 所 有 值 范 围 内 进行 线性 化 ， 转 换 公式 定义 如 下 : 

DFTCo)=cG 

上 式 中 , 7 将 不 同 的 等 级 映射 到 0..1 域 , 为 了 将 这 些 值 映射 回 它 们 最 初 的 域 ,需要 在 结 

果 上 应 用 下 面 的 简单 变换 : 
yixyi * (max-min)*min 

此 外 ， 可 将 上 述 方法 分 别 用 于 图 像 RGB 颜色 值 的 红色 、 绿 色 和 蓝 色 分 量 ， 实 现 对 彩色 
图 像 的 直方 图 均衡 化 。 

Python 可 调用 OpenCV 的 equalizeHist 函数 实现 直方 图 均衡 化 ， 调 用 格式 如 下 : 


cv2.equalizeHist(src[, dst]) — dst 
程序 10-23.py 演示 了 直方 图 均衡 化 ， 效 果 如 图 10-28 所 示 。 


# -*- coding: utf-8 -*- 
dcode:myhasplemyhaspl.com 
#10-23 .py 

import cv2 

fn="test1. jpg" 
myimg-cv2.imread(fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
newimg-cv2.equalizeHist (img) 
cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 





E 





图 10-28 ”直方 图 均衡 化 
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观察 图 10-28， 右 边 是 原 图 ， 左 边 是 经 过 增强 化 的 图 。 
再 看 程序 10-24.py， 该 程序 实现 了 直方 图 均衡 化 的 具体 算法 ， 效 果 如 图 10-29 所 示 。 


4 -*- coding: utf-8 -*- 
dcode:myhaspl8myhaspl.com 
# 直方 图 均衡 化 
#10-24.py 
import cv2 
import numpy as np 
fn="test5.jpg" 
myimg=cv2.imread (fn) 
img=cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
h-img.shape[0] 
w-img.shape[l] 
newimg-np.zeros((h,w),np.uint8) 
scount-0.0 
# 原始 图 像 灰 度 级 
scol-í() 

# 目标 图 像 灰 度 级 
dcol-() 

# 原始 图 像 频 度 
Ps-() 

# 累计 概率 
Cs-() 


8 统计 原始 图 像 灰 度 级 
for m in xrange(h): 
for n in xrange(w): 
scol[img[m,n]]2scol.setdefault(img[m,n],0)41 
scount+=1 


# 计算 原始 图 像 频 度 
for key in scol: 
Ps [key] =scol [key] /scount 


# 计算 图 像 灰 度 的 离散 随机 变量 累计 概率 
keys-Ps.keys() 
keys.sort() 
for skey in scol: 
Cs.setdefault(skey,0) 
for key in keys: 
if key»skey : 
break 
Cs [skey] +=Ps [key] 
# 建立 输入 与 输出 之 间 的 映射 
d max-np.max(keys) 
d min-np.min(keys) 
for skey in keys: 
dcol[skey]-int((d max-d min)*Cs[skey]-«d min) 


for m in xrange(h): 
for n in xrange(w): 
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newimg [m,n]-dcol[img([m,n]] 


cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 





图 10-29 直方 图 均衡 化 
观察 图 10-29， 左 图 为 均衡 化 后 的 图 ， 碳 边 为 原 图 ， 左 图 的 全 局 对 比 度 增强 了 。 


10.10 图像 滤波 与 除 噪 


10.10.1 均一 化 块 滤波 


H(x,y) 根据 作用 域 (3x3, 5x5, 7x7 等 ) 的 不 同 而 不 同 。 假 设 为 3x3， 则 有 9 个 像素 
参加 运算 。 可 以 有 以 下 几 种 : 


和 
Jii 3 3| da a 1] eja & 32 
7 3.34 03 31 "9 x 3 
OpenCV 提供 的 blur 函数 可 进行 归 一 化 块 滤波 操作 ，Python 调用 该 函数 的 格式 如 下 : 


cv2.blur(src, ksize[, dst[, anchor[, borderTypelll) — dst 


此 外 ,该 函数 使 用 了 如 下 脉冲 响应 函数 (也 称 为 核 函 数 ): 


l1 1 
K- 1 [4 1 
ksize.width X ksize.height 


1. 高 斯 噪声 滤波 
程序 10-25.py 演示 了 归 一 化 块 滤波 对 高 斯 噪声 的 处 理 ， 效 果 如 图 10-30 所 示 。 


Ly dd 4$1 
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4 -*- coding: utf-8 =*= 
$code:myhasplemyhaspl.com 

# 归 一 化 块 滤波 

4810-25.py 

import cv2 

import numpy as np 

fns"tést3.jpo" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


# 加 上 高 斯 噪声 

Param=20 

# 灰 阶 范围 

grayscale-256 

w-img.shape[l1] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
rl-np.random.random sample() 
r2-np.random.random sample() 
zl-param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 


fxy=int (img [x,y]+z1) 
fxyl=int (img [x,y+1]+2z2) 
#f (x,y) 
if fxy«0: 
fxy val-z0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 


else: 
fxy val-fxy 
#f (x,y+1) 
if fxyl«0: 
fxyl_val=0 


elif fxyl»grayscale-1: 
fxyl_val=grayscale-1 
else: 
fxyl_val=fxy1 
newimg[x,y]-fxy val 
newimg[x,y«1]-fxyl val 


FRKA 

lbimg-cv2.blur (newimg, (3,3)) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 
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图 10-30 ”上 归 一 化 块 滤波 


观察 图 10-30， 左 边 为 经 过 归 一 化 块 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效 果 较 好 。 
当然 ， 也 可 以 使 用 第 3 个 脉冲 响应 函数 ， 如 下 : 


1 12 ] 
*z| 4 "à 2 
ak 2 1 


程序 10-26.py 演示 了 使 用 第 3 个 脉冲 响应 函数 ， 应 用 归 一 化 块 滤波 对 高 斯 噪声 进行 
效果 如 图 10-31 所 示 。 


4 -*- coding: utf-8 -*- 
dcode:myhasplàmyhaspl.com 

# 归 一 化 块 滤波 

4$10-26.py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


# 加 上 高 斯 噪声 

param=20 

# 灰 阶 范围 

grayscale=256 

w=img .shapel[1] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
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rl=np.random.random_sample () 
r2-np.random.random sample() 
zl-param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.1log(r1)) 


fxy-int (img[x,y]-*z1) 
fxyl-int(img[x,y«*1]-^«z2) 
Sf (x,y) 
if fxy«0: 
fxy val-0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 
else: 
fxy val-fxy 
d£ (x,y^1) 
if fxyl«0: 
fxyl val-0 
elif fxyl»grayscale-1: 
fxyl val-grayscale-1 
else: 
fxyl val-fxyl1l 
newimg[x,y]-fxy. val 
newimg[x,y-«1]-fxy1l val 
print "=", 


# 滤波 去 噪 
# 图 像 四 个 边 的 像素 处 理 
lbimg-np.zeros((h«2,w42),np.float32) 
tmpimg-np.zeros((h«2,w-«2)) 
myh=h+2 
myw-w-42 
tmpimg[1:myh-1,1:myw-1]-newimg[O0:myh,0:myw] 
# 用 第 3 个 脉冲 响应 函数 
a-1/16.0 
kernel-sa*np,array([[1,2,1],[2,4,2]; [1,2;11]) 
for y in xrange(1,myh-1): 
for x in xrange(1,myw-1): 
lbimg[y,x]-np.sum(kernel*tmpimg[y-1:y42,x-1:x42]) 
print ".*, 
resultimg-np.array(lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',resultimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


观察 图 10-31， 左 图 为 归 一 化 块 滤波 后 的 效果 ， 右 图 为 原 图 ， 左 图 去 除 噪声 的 效果 较 好 。 
2. 椒盐 噪声 滤波 
归 一 化 块 滤波 对 椒盐 噪声 仍 有 一 定 的 滤波 效果 ， 但 需要 将 作用 域 扩大 (比如 : 设 成 


5 x 5 )， 图 像 会 更 模糊 ， 效 果 较 好 。 


程序 10-27.py 演示 了 应 用 归 一 化 块 滤波 对 椒盐 噪声 进行 处 理 ， 效 果 如 图 10-32 所 示 。 
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图 10-31 用 第 3 个 脉冲 响应 函数 归 一 化 块 滤波 


4 -*- écoding: ütf-8 -*- 
d$code:myhasplG8myhaspl.com 

# 归 一 化 块 滤波 

#10-27 .py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread(fn) 
img-cv2.cvtColor(myimg,cv2.COLOR BGR2GRAY) 


# 加 上 椒盐 噪声 

# 灰 阶 范围 

w-img.shape[l1] 

h-img.shape[0] 

newimg-np.array (img) 

# 噪声 点 数量 

noisecount=100000 

for k in xrange(0,noisecount): 
xi-int(np.random.uniform(0,newimg.shape[1])) 
xj-intí(np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 


# 滤波 去 噪 
lbimg-cv2.blur(newimg, (5,5)) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


观察 图 10-32， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 去 噪 效果 较 好 。 
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图 10-32” 归 一 化 块 滤波 对 椒盐 噪声 进行 处 理 


10.10.2 ” 邻 域 平均 法 
邻 域 平均 法 可 有 效 消除 高 斯 噪声 ， 其 数学 公式 如 下 : 


gy) E y fx-ky-l) 
(KNES 
5 为 邻 域 ,不 包括 Guy) 本 身 的 像素 点 ， 核 h(x,y) 可 为 : 
半径 为 1: 
,(9 1 0 
4101 
0 1 0 
半径 为 2 


1 | 
* ID T 
| 
程序 10-28.py 演示 了 邻 域 平均 法 对 椒盐 噪声 滤波 进行 处 理 的 操作 ， 效 果 如 图 10-33 所 示 。 


# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 

# 领域 平均 法 滤波 3*3 

#10-28.py 

import cv2 

import numpy as np 

fnz'test3.Jpg" 

myimg-cv2.imread(fn) 

imgzcv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


# 加 上 椒盐 噪声 


param=20 


+ do E 
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w-img.shape[1] 

h-img.shape[0] 

newimg-np.array(img) 

# 噪声 点 数量 

noisecount=100000 

for k in xrange(0,noisecount): 
xi-int(np.random.uniform(0,newimg.shape[1])) 
xj-int(np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 


# 领域 平均 法 去 噪 
# 脉冲 响应 函数 ， 核 函数 
# 图 像 四 个 边 的 像素 处 理 
lbimg=np. zeros ( (h+2;w+2) ,np.float32) 
tmpimg-np.zeros((h«2,w«2)) 
myh-h2 
mywzw-42 
tmpimg[1:myh-1,1:myw-1]-newimg[0:myh,0:myw] 
# 用 领域 平均 法 的 ( 设 半径 为 2 ) 脉冲 响应 函数 
a-1/8.0 
ketrnel-a*np.array([[1,1,1],[1,0,1]1,[1,1,1]1) 
for y in xrange(1,myh-1): 
for x in xrange(l,myw-1): 
lbimg[y,x]-np.sum(kernel*tmpimg[y-1:y«2,x-1:x*42]) 
peint ti”; 
resultimg-np.array(lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',resultimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 





图 10-33  4pEICE TS TESSUTO TER 


图 像 算法 案例 


观察 图 10-33， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
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程序 10-29.py 演示 了 和 邻 域 平均 法 对 高 斯 噪声 进行 滤波 的 操作 ， 效 果 如 图 10-34 所 示 。 


# -*- coding: utf-8 -*- 
dcode:myhasplemyhaspl.com 

8 领域 平均 法 滤波 

#10-29.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread (fn) 

img=cv2 .cvtColor (myimg, cv2.COLOR_BGR2GRAY) 


# 加 上 高 斯 噪声 
param-20 
# BS, ER 
grayscale-256 
w-img.shape[l] 
h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 





for x in xrange(0,h): 
for y in xrange(0,w,2): 
rl1-np.random.random sample () 
r2-np.random.random sample() 
zl-param*np.cos(2*np.pi*r2)*np.sqgrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqgrt((-2)*np.log(r1)) 


fxy-int(img[x,y]-*z1) 
fxyl-int (img [x,y+1] +22} 
#E(x,y) 
if fxy«0: 
fxy val-0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 


else: 

fxy val-fxy 
#E(x,y+1) 
if fxwyl<aOs 

fxyl val-0 


elif fxyl»grayscale-1: 
fxyl val-grayscale-1 
else: 
fxyl val-fxyl 
newimg[x,y]-fxy. val 
newimg[x,y«1]-fxyl val . 
print '"-^", 


# 领域 平均 法 去 噪 

# 脉冲 响应 函数 ， 核 函数 

# 图 像 四 个 边 的 像素 处 理 
lbimg-np.zeros((h42,w42),np.float32) 
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tmpimg-np.zeros((h«2,w42)) 
myh-h42 
myw-w-2 
tmpimg[1:myh-1,1:myw-1]-newimg[0:myh,0:myw] 
# 用 领域 平均 法 的 〈 设 半径 为 2 ) 脉冲 响应 函数 
a-1/8.0 
kernelsa*np.array(I[[1;1,1];[1,0;1];[1;1;,111) 
for y in xrange(1,myh-1): 
for x in xrange(1,myw-1): 
lbimg[y,x]-2np.sum(kernel*tmpimg[y-1:y42,x-1:x^42]) 
print ".*, 
resultimg-np.array(lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',resultimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 





图 10-34 ” 邻 域 平 均 法 对 高 斯 噪声 滤波 


观察 图 10-34， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 


10.10.3 ”中 值 滤波 


中 值 滤波 与 邻 域 平 均 法 类 似 ， 但 计算 的 是 中 值 ， 而 不 是 平均 值 。 具 体 算 法 是 : 将 图 像 的 
每 个 像素 用 邻 域 (以 当前 像素 为 中 心 的 正方 形 区 域 ) 像素 的 中 值 来 代替 。 


# -*- coding: utf-8 -*- 
tdtcode:myhaspl8myhaspl.com 
# 中 值 滤 波 

#10-30.py 

import cv2 

import numpy as np 
fn-"test3.jpg" 
myimg-cv2.imread(fn) 
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img-cv2.cvtColor (myimg,cv2.COLOR_ BGR2GRAY) 


# 加 上 椒盐 噪声 

# Egi. El 

w-img.shape[1] 

hzimg.shape[0] 
newimg-np.array(img) 

# 噪声 点 数量 

noisecount-50000 

for k in xrange(0,noisecount): 

) ) 
xj-int (np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 

# EXC 

# 脉冲 响应 函数 ， 核 函数 

# 图 像 四 个 边 的 像素 处 理 
lbimg-np.zeros((h«2,w«2),np.float32) 
tmpimg-np.zeros((h«2,w-42)) 

myh=h+2 

myw-w-42 
tmpimg[1:myh-1,1:myw-1]-newimg[0:myh,O0:myw] 
# 用 中 值 法 


for y in xrange(1,myh-1): 


xi-int(np.random.uniform(0,newimg.shape[l1] 


for x in xrange(1,myw-1): 
lbimg[y,x]-np.median(tmpimg[y-1:y42,x-1:x42]) 
print ",", 
resultimg-np.array (lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',resultimg) 
cv2.waitkKey() 
cv2.destroyAllWindows() 


观察 图 10-35 可 发 现 ， 中 值 滤波 忽略 了 较 高 阶 灰 度 和 较 低 阶 灰 度 ， 直 接 取 中 值 ， 可 以 有 
效 地 过 滤 椒 盐 噪 声 。 





图 10-35 ”中 值 滤波 
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此 外 ， 也 可 以 在 Python 中 调用 OpenCV 的 medianBlur 函数 实现 中 值 滤波 ， 调 用 格式 如 下 : 
cv2.medianBlur(src, ksize[, dst]) — dst 
程序 10-31.py 演示 了 medianBlur 函数 实现 中 值 滤波 的 操作 过 程 ， 效 果 如 图 10-36 所 示 。 


# -*- coding: utf-8 -*- 
dcode:myhasplamyhaspl.com 

# 中 值 滤波 

4$10-31.py 

import cv2 

import numpy as np 

fns"test3.jpg" 

myimg-cv2.imread(fn) 
img-cv2.cvtColor(myimg,cv2.COLOR BGR2GRAY) 


# do Ed sb o E 

LS; S 

w-img.shape[l] 

h-img.shape[0] 

newimg-np.array(img) 

# 噪声 点 数量 

noisecount-50000 

for k in xrange(0,noisecount): 
xi-int(np.random.uniform(0,newimg.shape[1])) 
xj-int(np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 


8E 
lbimg-cv2.medianBlur (newimg, 23) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 
cv2.waitKey() 
cv2.destroyAllwindows() 





" 


图 10-36 | medianBlur 函数 实现 的 中 值 滤波 


观察 图 10-36， 左 边 为 经 过 中 值 滤 波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效 果 很 好 。 
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当然 ， 也 可 以 使 用 中 值 滤 波 方法 对 高 斯 噪声 进行 滤波 ， 程 序 10-32.py 演示 了 该 操作 ， 效 
果 如 图 10-37 所 示 。 


# -*- coding: utf-8 -*- 
dcode:myhaspl8myhaspl.com 

# 中 值 滤波 

4110-32.py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


# r8 Eg 
w-img.shape[l] 
h-zimg.shape[0] 
newimg-np.array(img) 


# 加 上 高 斯 噪声 

param-20 

# X rss E 

grayscale-256 

w-img.shape[l] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
rl-np.random.random sample() 
r2-np.random.random sample() 
zl-param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqgrt((-2)*np.log(r1)) 


fxy-int(img[x,y]-«z1) 
fxyl-int (img [x,y+1]+z2) 
#f (x,y) 
if fxy«0: 
fxy val-0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 


else: 

fxy val-fxy 
Ff(x,v41) 
if fxyl1«0: 

fxyl val-s0 


elif fxyl»grayscale-1: 
fxyl val-grayscale-1 
else: 
fxyl val-fxy1 
newimg[x,y]-fxy val 
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newimg[x,y«1]-fxyl val 


à 滤波 去 噪 
lbimg-cv2.medianBlur (newimg, 3) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 
cv2.waitkKey() 
cv2.destroyAllWindows() 





图 10-37 ”对 高 斯 噪声 进行 中 值 滤波 


观察 图 10-37， 左 边 为 经 过 中 值 滤 波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效 果 较 好 。 


10.10.4 ”高 斯 滤波 

高 斯 滤波 是 对 整 幅 图 像 进行 加 权 平 均 的 过 程 ， 每 一 个 像素 点 的 值 ， 都 由 其 本 身 和 邻 域 内 
的 其 他 像素 值 经 过 加 权 平 均 后 得 到 的 。 高 斯 滤波 的 具体 操作 是 : 用 一 个 模板 (或 称 卷 积 、 掩 
模 ) 扫描 图 像 中 的 每 一 个 像素 ， 用 模板 确定 的 邻 域内 像素 的 加 权 平 均 灰 度 值 去 替代 模板 中 心 
像素 点 的 值 。 

Python 可 调用 OpenCV 的 GaussianBlur 函数 进行 高 斯 滤波 ， 调 用 格式 如 下 : 

cv2.GaussianBlur(src, ksize, sigmaX[, dst[, sigmaY[, borderType]l]]l) — dst 

程序 10-33.py 演示 了 高 斯 滤波 ， 效果 如 图 10-38 所 示 。 


di -*- coding: utf-8 -*- 
dcode:myhaspl8myhaspl.com 
# 高 斯 滤波 

4110-33.py 

import cv2 

import numpy as np 
fn-"test3.jpg" 
myimg-cv2.imread(fn) 
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img=cv2 .cvtColor (myimg,cv2.COLOR_ BGR2GRAY) 


t 灰 阶 范围 
w-img.shape[1] 
h-img.shape[0] 
newimg-np.array(img) 


# 加 上 高 斯 噪声 

param=20 

# 灰 阶 范围 

grayscale=256 

w-img.shape[l] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
ri-np.random.random sample() 
r2-np.random.random sample() 
zl-param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.1log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 


fxy-int (img[x,y]-«z1) 
fxyl-int(img[x,y«1]-^4z2) 
#f (x,y) 
if fxy«0: 
fxy_val=0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 


else: 

fxy val-fxy 
#f(x,y+1) 
if fxyl«0: 

fxyl val-0 


elif fxyl»grayscale-1: 
fxyl val-grayscale-1 
else: 
fxyl val-fxy1 
newimg[x,y]-fxy val 
newimg[x,y-«1]-fxyl val 


GRO UE 
lbimg-cv2.GaussianBlur (newimg, (3,3),1.8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 

cv2.waitKey() 

cv2.destroyAllWindows() 


观察 图 10-38， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效 果 较 好 。 
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图 10-38 ”高 斯 滤波 


10.10.5 “双边 滤波 

双边 滤波 ( Bilateral Filter) 是 一 种 非 线 性 的 滤波 方法 ， 是 结合 图 像 的 空间 邻近 度 和 像素 
值 相 似 度 的 一 种 折衷 处 理 方法 ， 同 时 考虑 空域 信息 和 灰 度 相似 性 ， 达 到 保 边 去 噪 的 目的 。 具 
有 简单 、 非 迭代 、 局 部 的 特点 。 

Python 可 调用 OpenCV 的 bilateralFilter 闵 数 来 实现 ， 调 用 格式 如 下 : 


cv2.bilateralFilter(src, d, sigmaColor, sigmaSpace[, dst[, borderType]l]) — dst 


该 函数 的 核心 参数 如 下 : 

Qd: 滤波 时 像素 邻 域 的 直径 ，d 为 负 时 由 sigaColor 计算 得 到 ; d>5 时 不 能 实时 处 理 。 

O sigmaColor, sigmaSpace 表示 颜色 空间 和 坐标 空间 的 滤波 系数 sigma， 可 简单 的 赋值 
为 相同 的 值 ， 其 值 小 于 10 时 几乎 没有 效果 ; 其 值 大 于 150 时 为 油画 效果 。 

程序 10-34.py 演示 了 双边 滤波 对 椒盐 噪声 的 滤波 ， 效 果 如 图 10-39 所 示 。 


4 -*- coding: utf-8 =*= 
#code:myhaspl@myhaspl .com 

# 双边 滤波 

410-34.py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


# 加 上 椒盐 噪声 

# 灰 阶 范围 
w-img.shape[ll 
h-img.shape[0] 
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newimg-np.array(img) 

# 噪声 点 数量 

noisecount=50000 

for k in xrange(0,noisecount): 
xi-int(np.random.uniform(0,newimg.shape[1])) 
xj-int(np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 


uS EL 

lbimg-cv2.bilateralFilter (newimg,5,140,140) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 

cv2.waitKey() 

cv2.destroyAllWindows() 





i £^ 
a 


图 10-39 ”双边 滤波 对 椒盐 噪声 的 滤波 


观察 图 10-39， 左 边 为 经 过 滤波 后 的 图 ， 布 边 为 原 图 ， 滤 波 效果 较 好 。 
程序 10-35.py 演示 了 双边 滤波 对 高 斯 噪声 的 滤波 ,效果 如 图 10-40 所 示 。 


# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 

# 双边 滤波 

#11-35.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


Ud ES 


w-img.shape[1] 
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h-img.shape[0] 
newimg-np.array (img) 


# 加 上 高 斯 噪声 

param-20 

# 灰 阶 范围 

grayscale=256 

w-img.shape[l] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 


for x in xrange(0,h): 
for y in xrange(0,w,2): 
rl-np.random.random sample() 
r2-np.random.random sample() 
zlsparam*np,.cos(2*np.pi*r2)* 
) 


np.sqrt((-2)*np.logí(ril)) 
z2-param*np.sin(2*np.pi*r2 ) 


*np.sqrt((-2)*np.log(r1) 


fxy-int(img[x,y]-«z1) 
fxyl-int(img[x,y-«1]-«z2) 
+E (x,y) 
if 让 yO 
fxy val-0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 
else: 
fxy val-fxy 
#f (x,y+1) 
lf fxyl«p: 
fxyl, val-0 
elif fxyl»grayscale-1: 
fxyl. val-grayscale-1 
else: 
fxyl val-fxyl1 
newimg[x,y]-fxy val 
newimg[x,y«1]-fxyl val 


# 滤波 去 噪 
lbimg-cv2.bilateralFilter(newimg,3,140,140) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 

cv2.waitKey() 

cv2.destroyAllWindows() 


观察 图 10-40， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 


10.40.6 ” 卷 积 滤波 


卷 积 滤波 的 基本 思想 是 : 将 卷 积 核 矩 阵 的 中 心 依 次 放 在 图 像 矩 阵 的 每 一 个 像素 的 位 置 上 ， 
将 卷 积 核 的 每 一 个 元 素 分 别 和 图 像 矩 阵 对 应 位 置 的 元 素 相 乘 ， 最 终 将 乘积 累加 起 来 ， 作 为 卷 
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积 结果 。 如 图 10-41 所 示 。 











图 10-40 ”双边 滤波 对 高 斯 噪声 的 滤波 图 10-41 卷 积 滤波 


可 在 Python 中 使 用 OpenCV 的 filter2D 函数 进行 卷 积 滤 波 ， 调 用 格式 如 下 : 
cv2.filter2D(src, ddepth, kernel[, dst[, anchor[, delta[, borderType]]]]) 一 dst 
程序 10-36.py 演示 了 卷 积 滤波 对 图 像 的 锐 化 处 理 ， 效 果 如 图 10-42 所 示 。 


# -*- coding: utf-8 -*- 

# 卷 积 滤波 

dcode:myhasplàmyhaspl.com 

#10-36.py 

import cv2 

import numpy as np 

fn-"test112.jpg" 

myimg-cv2.imread(fn) 
img-cv2.cvtColor(myimg,cv2.COLOR BGR2GRAY) 
myh-np.array([[0,1,0], [1,-4,1], [0,1,0]]) 
jgimg-cv2.filter2D(img,-1,myh) 
cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 

cv2.waitKey() 

cv2.destroyAllWindows() 


观察 图 10-42, AHEZA, MEE, KERRIER 
程序 10-37.py 演示 了 拉 普 拉 斯 算 子 进行 二 维 卷 积 计算 ， 对 图 像 进 行 锐 化 处 理 ， 效 果 如 
图 10-43 所 示 。 


4 -*- coding: utf-8 -*- 
#10-37.py 
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import cv2 

import numpy as np 

from scipy import signal 

fn-"test6.jpg" 

myimg-cv2.imread(fn) 

imgscv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
srcimg-np.array(img,np.double) 
myh-np.array([[0,1,0],[1,-4,1],1[0,1,0]]) 
myj-signal.convolve2d(srcimg,myh,mode-"same") 
jgimg-img-my;j 

cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 

cv2.waitKey() 

cv2.destroyAllWindows () 














图 10-42 ” 卷 积 滤波 对 图 像 的 锐 化 处 理 



















































































| 
图 10-43 ” 拉 普 拉 斯 算 子 进行 二 维 卷 积 





观察 图 10-43， 左 边 是 原 图 ， 右 边 是 经 过 锐 化 后 的 图 像 ， 锐 化 效果 较 好 。 
10.10.7 ”边缘 检测 


1. Laplacian 
可 在 Python 中 调用 OpenCV 的 Laplacian 函数 进行 边缘 检测 ， 调 用 格式 如 下 : 
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cv2.Laplacian(src, ddepth[, dst[, ksize[, scale[, delta[, borderTypelllll) —* dst 


当 该 函数 的 ksize 参数 大 于 1 时 ，Sobel 算 子 计算 公式 如 下 : 


o'src | o'src 
dst- A src= -— Rz 3 


Oy. 
此 外 ， 当 ksize=1 时 ， 对 图 像 采 用 如 下 内 核 做 卷 积 





0 1 0 
1 -4 1 
0 1 0 











程序 10-38.py 演示 了 拉 普 拉 斯 边缘 检测 ， 效 果 如 图 10-44 所 示 。 


$ =s coding: utt-8 =*= 

# 线性 锐 化 滤波 ， 拉 普 拉 斯 图 像 变换 
#code:myhaspl@myhaspl .com 
#10-38 .py 

import cv2 





fn-"test6.jpg" 
myimg-cv2.imread(fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


jgimg-cv2.Laplacian(img,-1) 
cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 





Ej sre 















































































































































































































































图 10-44 拉 普 拉 斯 边缘 检测 





观察 图 10-44， 左 边 是 原 图 ， 右 边 是 经 过 滤波 后 的 图 像 ， 边 缘 被 成 功 提 取 ， 将 右 图 进行 
反 转 (黑色 变 白色 ， 白 色 变 黑色 ， 用 255 减 去 图 像 矩 阵 ) 后 ， 可 得 到 更 好 的 效果 。 

2. sobel 非 线性 滤波 

sobel 非 线 性 滤波 采用 梯度 模 的 近似 方式 提取 边缘 ， 锐 化 图 像 。 

程序 10-39.py 演示 了 sobel 非 线性 滤波 ， 效 果 如 图 10-45 所 示 。 
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# -*- coding: utf-8 -*- 
# 非 线 性 锐 化 滤波 ，sobel 算 子 变换 
#code:myhaspl@myhaspl .com 
#10-39.py 

import cv2 


fn-"test6.jpg" 
myimg-cv2.imread(fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


jgimg-cv2.Sobel(img,0,1,1) 
cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 
cv2.waitkKey() 
cv2.destroyAllWindows() 















































图 10-45 sobel 非 线 性 滤波 
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观察 图 10-45， 左 边 是 原 图 ， 右 边 是 经 过 滤波 后 的 图 像 ， 边 缘 被 成 功 提取 ， 将 右 图 进行 


反 转 (黑色 变 白 色 ， 白 色 变 黑色 ， 用 255 减 去 图 像 矩 阵 ) 后 ， 


10.11 小 结 


机 只 学 习 算法 可 对 数字 图 像 进 行 加 工 和 处 理 ， 以 便 进 一 
了 数字 图 像 的 基础 知识 ， 数 字 图 像 用 二 维 矩 阵 表 示 有 限 像素 点 ， 每 个 像素 点 对 应 于 和 矩阵 对 应 
位 置 的 元 素 ; 然后 以 实例 说 明了 图 像 边缘 、 图 像 匹 配 、 图 像 分 类 算法 ; 最 后 讲解 了 噪声 生成 、 
图 像 二 值 化 、 插 值 与 缩放 、 仿 射 、 透 视 投影 与 透视 变换 、 灰 度 变换 与 图 像 增 强 、 图 像 滤波 与 
除 噪 等 算法 。 此 外 ， 在 讲解 这 些 算法 的 过 程 中 ， 注 重 实践 的 效果 ， 每 个 实例 均 用 Python 进行 
实现 ， 以 验证 算法 的 有 效 性 。 


m 考题 


可 得 到 更 好 的 效果 。 


步 进 行 特征 提取 。 本 章 首先 介绍 


(1) 首先 应 用 欧 氏 距离 算法 计算 图 像 边缘 ， 并 对 多 个 不 同 的 图 像 进行 实验 ， 观 察 效果 ; 
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然后 将 欧 氏 距离 算法 改 为 像素 差分 算法 (计算 像素 数值 的 差分 绝对 值 ) 进行 实验 ， 观 察 其 
效果 。 

(2) 以 多 个 图 像 为 实验 对 象 ， 对 其 进行 加 噪声 点 、 变 形 、 放 大 、 缩 小 等 操作 ， 应 用 图 像 
匹配 技术 进行 图 像 匹配 算法 实验 ， 举 试 在 图 像 匹配 算法 中 应 用 PCA 降 维 技术 。 

(3) 首先 任意 选取 一 个 彩色 图 像 ， 分 别 加 上 高 斯 噪声 和 椒盐 噪声 ， 然 后 应 用 本 章 介绍 的 
各 种 滤波 方法 ， 进 行 滤波 除 品 ， 并 观察 效果 。 

(4) 首先 任意 选取 一 个 彩色 图 像 ， 将 其 灰 度 化 ， 然 后 应 用 本 章 介绍 的 图 像 增强 方法 对 
灰 度 图 像 进行 处 理 ， 最 后 应 用 本 章 介绍 的 二 值 化 、 仿 射 、 透 视 化 变换 等 方法 对 彩色 图 像 进行 
处 理 。 
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机 器 视觉 案例 


计算 机 视觉 是 一 门 研究 如 何 使 机 器 “看 懂 ” 图 像 的 科学 ， 即 用 摄像 机 和 计算 机 代替 人 眼 
对 目标 进行 识别 、 跟 踪 和 测量 等 。 首 先 ， 使 用 摄像 机 等 设备 采集 画面 ， 生 成 数字 图 像 ; 然后 ， 
用 计算 机 对 图 像 进行 分 析 ， 相 当 于 人 的 大 脑 对 眼睛 采集 的 信息 进行 加 工 ， 得 到 所 需 的 信息 。 

计算 机 视觉 、 图 像 处 理 、 图 像 分 析 、 机 器 人 视觉 、 机 器 视觉 等 都 是 彼此 紧密 关联 的 学 
科 ， 这 些 学 科 都 属于 人 工 智能 的 范畴 ， 它 们 的 研究 目的 都 是 使 机 器 人 计算机) 和 人 一 样 ， 
能 看 到 图 像 ， 理 解 图 像 ， 学 习 图 像 中 包含 的 知识 。 机 器 学 习 是 人 工 智 能 的 核心 技术 ， 基 于 机 
器 学 习 的 图 像 算法 应 用 于 图 像 处 理 与 分 析 领 域 ， 其 作用 相当 于 人 类 大 脑 加 工 和 处 理 视 觉 神经 
反馈 的 图 像 。 


11.1 人 脸 辨 识 


生物 特征 识别 技术 ， 是 指 通过 生物 体 (一 般 特 指 人 ) 本 身 的 生物 特征 来 区 分 生物 体 个 体 。 
生物 特征 识别 技术 所 研究 的 相关 特征 包括 脸 、 指 纹 、 手 掌 纹 、 虹 膜 、 视 网 膜 、 声 音 、 体 形 、 
个 人 习惯 等 。 相 应 的 识别 技术 有 人 脸 识别 、 指 纹 识 别 、 掌 纹 识别 、 虹 膜 识 别 、 视 网 膜 识 别 、 
语音 识别 、 体 形 识别 、 键 盘 殴 击 识别 、 签 字 识 别 等 。 

人 脸 识 别 属于 生物 特征 识别 技术 中 的 一 种 ， 指 利用 分 析 比 较 人 脸 视觉 特征 信息 进行 身份 
鉴别 的 计算 机 技术 。 


11.1.1 人 脸 定 位 


在 一 张 图 像 或 一 段 视频 中 定位 人 脸 的 技术 目前 已 比较 成 熟 ， 可 调用 OpenCV 提供 的 接口 
来 完成 。 相 应 的 Python 代码 如 下 : 
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def findface(image): 
# 人 脸 识 别 ， 获 取 脸 在 图 像 中 的 坐标 
grayscale = cv.Createlmage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 





cascade - 
cv.Load(OPCV PATH«"/data/haarcascades/haarcascade frontalface alt tree.xml") 
rect - cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.015, 
2,cv.CV HAAR DO CANNY PRUNING, (10,10)) 
result - [] 


for r in rect: 
result.append([(r[0][0], r[0]I[11]), (r[01[0]«r[0][2], r[0] [1]«r[0] [31) 1) 
return result 


上 面 算 法 的 原理 是 : 首先 将 图 像 转换 为 灰 度 图 ， 然 后 加 载 OpenCV 提供 的 面部 特征 库 ， 
接着 调用 HaarDetectObjects 找到 人 脸 的 位 置 ， 最 后 将 定位 的 结果 赋值 给 result 数据 并 返回 。 

下 面 以 如 图 11-1 所 示 的 《机 械 公 敌 》 的 电影 海报 为 例 来 应 用 算法 。 

实现 该 算法 的 完整 Python 代码 如 下 : 


4!/usr/bin/env python 
$-*- coding: utf-8 -*- 
dcode:myhaspl8qq.com 
#11-1.py 

# 人 脸 定位 


import cv2 

import cv2.cv as cv 
print 'loading : 

# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH fË 
OPCV PATH-r"F:/soft/c--/opencv" 


def findface(image): 

# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 

grayscale = cv.CreateImage ((image.width, image.height), 8, 1) 

cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 

cascade = cv.Load(OPCV PATH«"/data/haarcascades/haarcascade frontalface alt 
tree.xml") 

rect = cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.015, 
2,cv.CV HAAR DO CANNY PRUNING, (10,10)) 





result - [] 
for r in rect: 

result.append([(r[0]1I0], r[0][1]), (r[0][0]«r[0] [21], r[0]1I[1]«r[01[31])1) 
return result 


fn-'facesb.png' 
my img-cv.LoadImage (fn) 


# 获取 脸 在 图 像 中 的 坐标 
faceresult-findface(my img) 
myimg-cv2.imread(fmn) 

for ii in xrange(0,len(faceresult)): 
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cv2.rectangle(myimg, faceresult [ii][0], faceresult[ii][1],(0,0,250)) 


cv2.namedWindow('img') 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


程序 运行 效果 如 图 11-2 所 示 。 不 但 所 有 人 类 的 脸 被 定位 ， 而 且 机 器 人 的 脸 也 被 成 功 找到 。 


程序 的 OPCV_PATH 为 OpenCV 源码 包 中 data 所 在 的 目录 ， 运 行 10-10.py 前 请 自行 更 改 。 





11.1.2 ”人 脸 辨识 


F, 


在 讲述 本 节 内 容 之 前 ， 先 明确 一 下 本 节 讲 述 的 算法 需要 完成 的 任务 : 通过 某 人 的 一 张 照 
在 他 与 别人 的 合影 中 找到 他 。 

1. 算法 描述 

完成 该 任务 的 人 脸 辨识 算法 主要 过 程 是 : 

1) 读 取 两 张 图 像 ， 生 成 图 像 矩 阵 。 

2) 以 两 个 图 像 矩 阵 为 基础 ， 调 用 OpenCV 的 相关 函数 完成 人 脸 定 位 。 

3) 读 取 两 张 图 像 的 人 脸 区 域 ， 生 成 人 脸 图 像 矩 阵 ， 并 将 人 脸 和 矩阵 转换 为 灰 度 图 。 

4) 比较 分 析 人 脸 图 像 矩 阵 ， 找 到 最 相近 的 人 脸 。 


2. 欧 氏 距离 算法 
在 进行 人 脸 识别 时 ， 可 使 用 标准 欧 氏 距离 算法 ， 该 算法 不 仅 简单 ， 而 且 实用 。 下 面 以 一 





张 Microsoft 公司 员工 与 比尔 盖 获 的 合影 和 在 比尔 盖 蒋 办公室 中 他 与 基 人 的 合影 为 例 讲 
解 该 算法 。 


算法 基本 原理 是 : 将 标准 欧 氏 距离 算法 作为 比较 分 析 人 脸 图 像 矩 阵 方法 。 首 先 ， 将 两 个 


人 脸 图 像 调整 为 指定 大 小 ; 接着 ， 用 所 包含 像素 的 三 元 色 数 值 组 成 特征 组 ， 然 后 将 特征 组 映 
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射 为 高 维 空间 的 某 个 点 (在 此 称 之 为 特征 点 ); 最 后 ， 计 算 两 个 人 脸 图 像 的 特征 点 映射 到 高 维 
空间 后 的 距离 。 以 欧 氏 距离 最 小 者 为 最 匹配 的 人 脸 。 具 体 步 骤 如 下 。 
1) 调用 OpenCV 相关 函数 定位 人 脸 。 代 码 如 下 : 


cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllWindows() 


2) 计算 欧 氏 距离 。 代 码 如 下 : 


def get distance(img,findimg): 
newsize-(img.shape[1],img.shape[0]) 
fimg-cv2.resize(findimg,newsize) 
my. img-cv2.cvtColor(img,cv2.COLOR BGR2GRAY) 
my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
return get EuclideanDistance (my img,my fimg) 


3) 找到 最 匹配 的 人 脸 。 代 码 如 下 : 


myimg-cv2.imread(fn) 
myimgt-cv2.imread(fnt) 


#IT 精英 比尔 ， 盖 茨 
isfacel-get distance(myimg[faceresult[0][01[0]:f£aceresult[0][1] 
[0], faceresult[0] [0] [1]: faceresult[0] [1] [1],:] ,myimgt [facet result[0][0][0]:facet . 
result[01][1][0],facet result[0][0][1]:facet result[0][1][1],:1]) 
isface2-get distance(myimg[faceresult[1][01][0]:faceresult[1][1] 
[0], faceresult[1][0][1]:faceresult[1][1][1],:],myimgt[facet result[0][0][0]:facet 
result[0][1][0],facet result[0][0][1]:facet result[01][1][1],:]1) 
if isfacel«isface2: 
cv2.rectangle(myimg, faceresult[0][0], faceresult[0][11,(255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1],(255,0,255)) 
else: 
cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1],(255,0,255)) 


完整 的 代码 如 下 : 


$1/usr/bin/env python 
#-*- coding: utf-8 -*- 
dtcode:myhaspl8qq.com 
411-2.py 

3 标准 欧 氏 距离 实现 的 人 脸 识别 





import cv2 

import numpy as np 

import cv2.cv as cv 

print 'loading  ...' 

# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH 值 
OPCV PATH-r"F:/soft/c««/opencv" 


def get EuclideanDistance(x,y): 


ww ai bit. com (10 00 B 


第 11 章 ”机 器 视觉 案例 eje 441 


myx=np.array (x) 

myy=np.array (y) 

return np.sqrt (np.sum( (myx-myy)* (myx-myy)))*np.var (myx-myy) 
def get distance(img,findimg): 

newsize-(img.shape[1],img.shape[0]) 

fimg-cv2.resize(findimg,newsize) 

my img-cv2.cvtColor(img,cv2.COLOR BGR2GRAY) 

my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 

return get EuclideanDistance(my img,my fimg) 


def findface(image): 

# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 

grayscale = cv.Createlmage((image.width, image.height), 8, 1) 

cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 

cascade = cv.Load(OPCV PATH-«"/data/haarcascades/haarcascade frontalface alt . 
tree.xml") 

rect - cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.1, 
2,cv.CV HAAR DO CANNY PRUNING, (10,10)) 


result - [] 
for r in rect: 


result.append([(r[0][0], r[0]1[11), (r[0]I[0]«r[0][2], r[01][1]«r[0][31) 1) 
return result 


fn-'billalll.png' 

fnt- 'billtest.png' 

my img-cv.LoadImage(fn) 
face test-cv.LoadImage(fnt) 


# 获取 人 脸 在 图 像 中 的 坐标 
faceresult-findface(my img) 
facet result-findface(face test) 


myimg-cv2.imread(fn) 
myimgt-cv2.imread(fnt) 


#IT 精英 比尔 dXX 
isfacel-get distance(myimg[faceresult[0][01[0]:faceresult[0][1] 
[0], faceresult[0][0][1]:faceresult[0][1][1],:], myimgt[facet result[0][0][0]:facet 
result[0][1][0], facet result[0][0] [1]:facet result[0] [11[1],:]) 
isface2-get distance(myimg[faceresult[1][0][0]:faceresult[1][1] 
[0],faceresult[1][0][1]:faceresult[1][1][11,:],myimgt[facet result[0][0][0]:facet . 
result[0][1][0], facet result[0][0] [1]:facet result[0] [1][1],:1]) 
if isfacel«isface2: 
cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][11,(255,0,255)) 
else: 
cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1],(255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1],(255,0,255)) 


cv2.namedWindow("'img') 
cv2.imshow('img', myimg) 
cv2.namedWindow('imgt') 
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cv2.imshow('imgt', myimgt) 
cv2.waitKey() 
cv2.destroyAllWindows() 


运行 算法 程序 后 ， 成 功 地 在 员工 合影 中 找到 比尔 * 盖 茨 。 运 行 本 书 资源 包 中 的 上 述 代 
码 ， 可 验证 人 脸 识别 效果 。 


3. 改进 的 欧 氏 距离 算法 

前 面 描述 的 图 像 特征 码 提取 算法 仅仅 是 基于 像素 点 的 三 元 色 数 值 的 ， 有 时 候 ， 图 像 少量 
的 像素 点 差异 可 能 干扰 识别 结果 。 人 脸 是 一 个 整体 ， 可 能 因为 人 脸 的 某 个 部 位 CC ER. Hi 
品 等 )、 人 脸 的 不 同 动作 和 不 同 角 度 〈( 如 正面 人 脸 、 斜 侧面 人 脸 以 及 抬头 或 低头 等 ) 造成 少数 
像素 点 之 间 的 差异 过 大 ， 使 欧式 距离 失真 (被 放大 或 缩小 )。 如 果 从 以 下 两 个 方面 改进 上 述 人 
脸 辨识 算法 ， 可 以 使 其 识别 效果 更 好 。 

O 将 人 脸 图 像 大 小 设置 为 适当 的 数值 (通常 来 说 比较 小 )， 这 样 更 能 突出 人 脸 的 特征 ， 而 
略 去 很 多 干扰 项 。 此 外 ， 提 取 原 始 特征 组 后 ， 使 用 PCA 降 维 技术 对 原始 特征 组 进行 
进一步 加 工 ， 生 成 最 终 的 特征 组 ， 从 而 更 好 地 表征 人 脸 。 

O 在 标准 欧 氏 距离 的 基础 上 乘 以 权重 。 有 两 种 计算 方式 : 第 一 ， 每 区 域 像 素 设置 不 同 的 
权重 ， 因 为 人 脸 的 不 同 区 域 表征 人 脸 的 能 力 不 同 ; 第 二 ， 设置 整 体 权 重 ， 使 人 脸 图 像 
和 矩阵 的 差分 值 均匀 化 。 

本 节 使 用 第 二 种 方式 ， 加 工 后 的 欧 氏 距离 不 但 能 更 好 地 表征 人 脸 整 体 差异 ， 而 且 不 会 因 

为 人 脸 中 某 些 部 分 过 大 或 过 小 的 差异 影响 整体 识别 效果 。 

在 讲解 上 述 算法 之 前 ， 先 讲解 一 下 统计 学 的 变异 系数 。 标 准 差 和 方差 均 可 反映 数据 离散 
程度 ， 但 反映 的 是 离散 绝对 值 。 在 衡量 数据 分 布 离散 程度 时 ， 不 仅 要 考虑 变量 值 离散 程度 ， 
还 要 考虑 变量 值 平 均 水 平 。 变 异 系数 同时 考虑 了 这 两 个 因素 。 

变异 系数 ， 又 称 离散 系数 ， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 。 它 定义 为 标准 差 o 
与 平均 值 4 之 比 : 


注意 ， 变 异 系 数 只 在 平均 值 不 为 零 时 有 定义 ， 人 脸 差 分 和 矩阵 正好 满足 这 个 条 件 。 

变异 系数 可 以 消除 因为 平均 数 不 同 在 变异 程度 比较 中 产生 的 干扰 。 变 异 系数 越 小 ， 数 据 
离 平均 值 的 偏离 程度 越 小 ; 反之 ， 变 异 系 数 越 大 ， 数 据 离 平 均值 的 偏离 程度 越 大 。 

这 里 首先 将 变异 系数 改进 ， 将 标准 差 用 方差 代替 ; 然后 将 改进 的 变异 系数 的 倒数 作为 计 
算 欧 氏 距 离 的 调节 系数 (这样 做 的 效果 是 : 将 偏离 程度 较 大 的 数据 赋予 较 小 的 权重 ,将 偏离 
程度 较 小 的 数据 赋予 较 大 的 权重 中 ); 最 后 将 标准 欧 氏 距离 乘 以 调节 权重 ， 从 而 实现 差异 平均 
化 ， 让 改进 后 的 欧 氏 矩阵 更 好 地 表征 人 脸 整 体 差 异 。 通 过 对 多 个 样本 的 实验 来 看 ， 这 种 方式 
的 效果 比较 理想 。 

下 面 以 找到 威 尔 ' 史密斯 为 例 来 讲解 改进 的 欧 氏 距离 算法 。 在 《机 械 公 敌 》 中 ， 威 
AK * 史密斯 饰演 警 探 戴尔 史 普 纳 ， 布 丽 姬 称 娜 饰演 苏 珊 卡 尔 文博 士 。 以 威 尔 . 史密斯 出 演 的 
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《我 是 传奇 》 的 电影 海报 (如 图 11-3 所 示 ) 中 的 图 像 为 蓝本 ， 在 他 与 布 丽 姬 称 娜 合影 的 《机 
械 公敌 》 海 报 (如 图 11-4 和 图 11-2 所 示 ) 中 找到 他 。 
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图 11-3 《我 是 传奇 》 海 报 图 11-4 《机 械 公敌 》 海 报 


经 过 实验 ， 发 现 标准 的 欧 氏 距 算 法 无 法 完成 这 个 任务 ， 需 要 使 用 刚刚 描述 的 改进 后 的 欧 
氏 距 离 算 法 
1) Æ PCA 降 维 后 ， 计 算 基 于 整体 权重 的 欧 氏 距离 。 代 但 如 下 : 


def get distance(img,findimg): 
newsize- (21,21) 
fimg-cv2.resize(findimg,newsize) 
img-cv2.resize(img,newsize) 
my img-cv2.cvtColor(img,cv2.COLOR BGR2GRAY) 
my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
pcaimg - mlpy.PCA() 
pcaimg.learn(my img) 
pca img - pcaimg.transform(my img, k-1) 
pca img-pcaimg.transform inv(pca img) 
pcafimg - mlpy.PCA() 
pcafimg.learn(my fimg) 
pca fimg - pcaimg.transform(my fimg, k-1) 
pca fimg- pcafimg.transform inv(pca fimg) 
return get EuclideanDistance(pca img,pca fimg) 


2) 根据 欧 氏 距离 决定 哪个 人 脸 更 匹配 。 代 码 如 下 : 
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my img-cv.LoadImage(fn2) 
myimg-cv2.imread(fn2) 
# 获取 脸 在 图 像 中 的 坐标 


faceresult=findface (my_img) 


RERE- 史密斯 
isfacel=get_dđistance(myimg[faceresult[0][0][0]:faceresult[0] [1] 
[0] , faceresult[0] [0] [1]:faceresult[O] [1] [1], :],myimgt [facet_result [0] [0] [0] :facet_ 
result[0][11[0], facet result[0][0][1]:facet result[0] [11 [11], :]) 
isface2-get distance(myimg[faceresult[1][01][0]:faceresult[1][1] 
[0],faceresult[1][0] [1]:£aceresult[1] [1] [1],:] , mvimgt[facet result[0][0][0]:facet.. 
result[0][1][0], facet result[0][0][1]:facet result[0][1][1],:1) 
if isfacel«isface2: 
cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1],(255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1], (255,0,255)) 
else: 
cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet, result[0] [1], (255,0,255)) 


完整 的 代码 如 下 : 


#!/usr/bin/env python 
*-*- coding: utf-8 -*- 
dcode:myhaspl8qq.com 
*11-3.py 

#pcb+ 改进 变异 系数 人 脸 识别 


import cv2 
import numpy as np 
import cv2.cv as cv 
import mlpy 
print 'loading se! 
# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH fË 
OPCV_PATH=r"F:/soft/c++/opencv" 
def get EuclideanDistance(x,y): 
myx-np.array (x) 
myy-np.array(y) 
return np.sgrt (np.sum( (myx-myy)* (myx-myy))) / (np.var (myx-myy) /abs (np.mean (myx- 
myy))) 


def get distance(img,findimg): 
newsize- (21,21) 
fimg-cv2.resize(findimg,newsize) 
img-cv2.resize(img,newsize) 
my img-cv2.cvtColor(img,cv2.COLOR BGR2GRAY) 
my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
pcaimg - mlpy.PCA() 
pcaimg.learn(my img) 
pca img - pcaimg.transform(my img, k-1) 
pca img-pcaimg.transform inv(pca img) 


pcafimg - mlpy.PCA() 
pcafimg.learn(my fimg) 
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pca fimg = pcaimg.transform(my fimg, k-1) 
pca fimg- pcafimg.transform inv(pca fimg) 
return get EuclideanDistance(pca img,pca, fimg) 


def findface(image): 
# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 
grayscale = cv.CreatelImage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 
cascade = cv.Load(OPCV PATH-"/data/haarcascades/haarcascade frontalface alt 
tree.xml") 


rect - cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.1, 
2,cv.CV HAAR. DO CANNY PRUNING, (10,10)) 
result - [] 


for r in rect: 
result.append([(r[0][0], r[0][1]), (r[01[0]«r[01[2], r[01[1]«r[01[31)1]) 


return result 
fni-'jjgdall.png' 
fn2-'facesb.png' 
fnt-'jjgdtest.png' 
face test-cv.LoadImage (fnt) 
# 获取 人 脸 在 图 像 中 的 坐标 
facet result-findface(face test) 
myimgt-cv2.imread(fnt) 
my img-cv.LoadImage(fnl) 
myimg-cv2.imread(fnl) 
# 获取 人 脸 在 图 像 中 的 坐标 
faceresult-findface(my img) 
# 找到 威 尔 。 史密斯 
isfacel-get distance(myimg[faceresult[0][0][0]:faceresult[0][1] 
[0],faceresult[0][0][1]:faceresult[0][1][1],:], myimgt[facet result[0][0][0]:facet. . 
result[0][1][0], facet result[0][0] [1]:facet result[0][1][1],:]1]) 
isface2-get distance(myimg[faceresult[1j[0][01]:faceresult[1]I[1] 
[0], faceresult[1][0] [1]:faceresult[1][1][1],:], myimgt[facet result[0][0] [0]: facet 
result[0][1][0], facet result[0][0][1]:£facet result[0][1][1],:1) 
if isfacel«cisface2: 
cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1],(255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1]1,/(255,0,255)) 
else: 
cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1],(255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1],(255,0,255)) 


cv2.namedWindow('img1') 
cv2.imshow('imgl', myimg) 
my img-cv.LoadImage (fn2) 
myimg-cv2.imread(fn2) 

# 获取 人 脸 在 图 像 中 的 坐标 


faceresult-findface(my img) 


# 找到 威 尔 。 史 密斯 

isfacel-get distance(myimg[faceresult[0][0][0]:faceresult[0][1] 
[0], faceresult[0] [0] [1] : faceresult [0] [1] [1], :], mnyimgt[facet result[0][0][0]:facet.. 
result[0][1][0], facet result[0][0] [1]:£facet, result[0] [1] [1], :1) 
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isface2-get distance(myimg[faceresult[1][01][0]:£aceresult[11][1] 
[0],faceresult[1][0][1]:faceresult[1][1][1],:],myimgt[facet result[0][0][0]:facet 
result[0][1]1[0],facet result[0O][0][1]:facet result[0][11][1],:1]) 
if isfacel«isface2: 
cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1],(255,0,255) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1],(255,0,255)) 
else: 
cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1],(255,0,255)) 
cv2.rectangle(myimgt, facet result[0][0], facet result[0][1],(255,0,255)) 


cv2.namedWindow('img2') 
cv2.imshow('img2', myimg) 
cv2.namedWindow('imgt') 
cv2.imshow('imgt', myimgt) 
cv2.waitKey() 
cv2.destroyAllWindows () 


运行 上 述 程序 后 ， 效 果 良 好 ， 在 图 11-5 中 ， 以 左 图 中 的 史密斯 的 脸 为 依据 ， 成 功 地 在 右边 
两 个 图 像 中 找到 史密斯 ( 方 框 中 标示 了 人 脸 )。 





img 


11.2 手写 数字 识别 


手写 数字 识别 就 是 指 用 计算 机 读 取 含有 
手写 数字 的 图 像 ， 然 后 将 图 像 转 换 为 用 计算 
机 文字 表示 的 对 应 数字 。SVM 在 文本 分 类 、 
手写 文字 识别 、 图 像 分 类 、 生 物 序 列 分 析 等 
实际 应 用 中 表现 出 了 非常 好 的 性 能 。 下 面 应 
用 SVM 算法 对 1 ~ 9 的 手写 数字 图 像 进 行 


识别 。 m JAM 


: : 图 11-5 人 脸 匹 配 
11.2.1 ”手写 数字 识别 算法 
1) 为 每 个 数字 各 准备 4 个 样本 图 像 ， 如 图 11-6 所 示 。 





| 

1 / 1 I 2 5 2 2 3 3 

test l-Lpng — l1-2png Lipng  l-Apng — 2-Llpeg 22png 2Z3png ZEpng LLpog 432png 
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62png  6-3png — 64png 7-Lpng 7-2png Tipng TApng Blpng B2png ^ E-ipng  B4png 


4 1 ? ? 
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图 11-6 数字 样本 图 像 


2 ) 将 图 像 大 小 调整 为 8 x 8 的 尺寸 ， 读 取样 本 图 像 。 
虽然 较 大 的 图 像 比较 小 的 图 像 尺寸 更 清晰 ， 但 并 不 意味 着 它 能 更 好 地 表现 图 像 的 主要 特 
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征 。 不 过 ， 由 于 手写 字体 不 规范 ， 因 此 较 大 的 尺寸 会 更 清楚 地 表征 字体 的 不 规范 细节 。 当 图 
像 尺寸 调整 得 更 小 时 ， 图 像 矩 阵 规模 变 小 ， 能 表现 图 像 细节 的 能 力 减 弱 ， 大 部 分 字体 的 不 规 
范 细节 会 消失 ， 但 这 样 一 来 ， 数 字 的 主要 特征 就 更 加 突出 了 ， 可 尽 可 能 消除 手写 字体 不 规范 
带 来 的 影响 。 比 如 ， 如 图 11-7 所 示 的 数字 3， 从 左边 起 第 一 张 是 40x40 的 尺寸 ， 第 二 张 是 
20x 20 的 尺寸 ， 而 第 三 张 则 是 8 x 8 的 尺寸 。 我 们 在 用 肉眼 观察 时 ， 可 以 看 到 ， 随 着 尺寸 越 
来 越 小 ， 图 像 越 来 越 模糊 ， 不 规范 的 细节 也 慢 慢 消失 。 当 
计算 机 使 用 8x8 的 尺寸 来 分 析 数 字 3 的 图 像 时 ， 提 取 的 2 3 
特征 就 能 更 好 地 表达 图 像 。 

在 8x8 (实际 是 8x8x3， 因 为 调用 OpenCV Æ ee 
取 图 像 后 ， 会 多 出 一 维 空间 ， 多 出 的 这 维 空间 分 别 放 置 了 EUT 不 同人 二 的 数 子 3 图 像 
红 、 绿 、 蓝 三 元 色 数值 ) 的 图 像 矩 阵 中 ， 当 色彩 为 黑色 (数字 字体 的 颜色 ) 时 ， 表 示 该 像素 
的 特征 码 为 1， 否则 为 0， 形 成 的 像素 特征 码 组 成 了 样本 图 像 特 征 组 。 

现在 将 每 个 数字 类 别 的 样本 图 像 特征 组 作为 输入 ， 样 本 对 应 的 数字 值 作为 输出 ， 用 
SVM 进行 训练 。 

3) 读 取 未 知 样本 图 像 ， 将 未 知 图 像 调 整 为 gx 8 的 尺寸 ， 提 取 图 像 特征 码 ， 生 成 图 像 特 
征 组 。 

4 ) 将 未 知 样 本 图 像 特征 组 送 入 SVM 仿真 测试 ， 仿 真 输 出 值 为 根据 图 像 识 别 出 的 数字 。 


11.2.2 ”算法 的 Python 实现 
现在 根据 上 述 步 又 一 步 步 来 实现 。 首 先 ， 提 取 图 像 特征 ， 代 码 如 下 : 


def getnumc(fn): 
dk E n1 
fnimg - cv2.imread(fn) 
img-cv2.resize(fnimg, (8,8)) 
allte[] 





for now h in xrange(0,8): 

see zs] 

for now w in xrange(0,8): 
b = img[now h,now  w,0] 
g img [mow h,now w,1] 
r = img[now h,now w,2] 
btz-255-b 
gtz-255-g 
riz-255-a 
it btz»0Ü cr qvz-0 or rtz»0« 

nowtz-1 


1 1 1 


else: 
nowtz=0 
xtz.append (nowtz) 
alltz«-xtz 
return &alltz 


然后 训练 SVM 并 仿真 输出 。 代 码 如 下 : 
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x-np.array (x) 

y-np.array (y) 

svm - mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-10) 
svm.learn(x, y) 

print svm.pred(x) 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
dtcode:myhaspl8qq.com 
811-4.py 


import numpy as np 
import mlpy 

import cv2 

print 'loading sss" 


def getnumc(fn): 
COO 返回 数字 特征 ，，， 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (8,8)) 
alltz-[] 
for now h in xrange(0,8): 
xtzae[] 
for now w in xrange(0,8): 
b = img[now h,now. w,0] 
g = img[now h,now  w,1] 
r = img[now h,now. w,2] 
btzz255-b 
gtz-255-g 
rtz-255-r 
if btz»0 or gtz»0 or rtz»0: 
nowtz-1 
else: 
nowtzz0 
xtz.append (nowtz) 
alltz«-xtz 
return alltz 


8 读 取 样本 数字 

x-[] 

y=[] 

for numi in xrange(1,10): 

for numij in xrange(1,5): 

fn-'nums/'«str(numi)-'-'«str(numij)-«'.png' 
x.append(getnumc(fn)) 
y.append(numi) 


x-np.array (x) 

y-np.array (y) 

svm - mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-10) 
svm.learn(x, y) 
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print svm.pred(x) 


for iii in xrange (1,10): 
testfn- 'nums/test/'«str(iii)«'-test.png' 
testx-[] 
testx.append(getnumc (testfn)) 
print svm.pred(testx) 


最 后 ， 进 行 仿真 测试 。 
通过 对 如 图 11-8 所 示 的 未 知 样本 的 仿真 测试 得 知 ， 运 行 效果 不 错 。 
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1-test.png 2-test.png 3-test.png 4-test.png 5-test.png 6-test.png T-test.png B-test.png 


9-test.png 


图 11-8 未知数 字样 本 
运行 效果 如 下 : 


loading 
训练 样本 测试 
L Xs Ts EFI Te Se 2a Z, 2s 2u 3. 3; 3a 4e 4. 4. 4. 5. Bia 
5. B. 6. 6. 6. E: Ja Te Te Ws 8. 8. 8. Bo E. 9. 9 94] 
未 知 图 像 测试 
nums/test/1-test.png: 
nums/test/2-test.png: 
nums/test/3-test.png: [ 
nums/test/4-test.png: 
nums/test/5-test.png: 
nums/test/6-test.png: 
nums/test/7-test.png: 
nums/test/8-test.png: 
nums/test/9-test.png: [ 





00 -1 0| Ul & t N pP 
i— 1 wwe) iir» qa ci 


11.3 ”运动 侦 测 

运动 侦 测 ， 英 文 翻译 为 “Motion Detection Technology”， 一 般 也 叫 移动 检测 ， 是 指 通过 
摄像 头 按照 不 同 的 帧 率 采 集 得 到 的 图 像 ， 电 脑 按照 一 定 的 算法 对 这 些 图 像 进行 计算 和 比较 ， 
当 画 面 有 变化 时 ， 指 示 系 统 能 自动 做 出 相应 的 处 理 。 比 如 : 有 人 走 过 ， 镜 头 被 移动 ， 电 脑 计 
算 比 较 得 出 的 移动 数值 ， 检 测 是 否 会 超过 阔 值 ， 如 果 超 过 阔 值 ， 则 进行 下 一 步 处 理 (发 出 警 
报 等 )。 

移动 侦 测 技术 是 运动 检测 录像 技术 的 基础 ， 最 早 用 于 于 无 人 值守 监控 录像 和 自动 报警 ， 
现在 已 经 被 广泛 应 用 于 网 络 摄像 机 、 汽 车 监控 锁 、 数 字 宝 护 神 、 婴 儿 监 视 器 、 自 动 取 样 仪 、 
自 识 别 门禁 等 众多 安防 仪器 和 设施 上 。 
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11.8.4 ”视频 采集 


1. 视频 采集 

程序 11-5.py 演示 了 视频 采集 ， 程 序 每 隔 15 毫秒 检测 一 次 是 否 采集 图 像 。 程 序 的 具体 实 
现 方 式 如 下 : 

首先 设置 捕获 设备 ， 然 后 建立 循环 ， 每 15 毫秒 更 新 一 次 画面 显示 ， 并 检测 是 否 退 出 
或 采集 图 像 ， 按 空格 键 则 退出 ， 按 e 键 则 捕获 当前 视频 的 网 像 。 


4 -*- coding: utf-8 -*- 
dcoding:myhaspl8myhaspl.com 

411-5.py 

import cv2 

4 设置 需要 采集 视频 的 设备 ID 为 0， 从 第 0 个 摄像 头 采 集 
mycap-cv2.VideoCapture(0) 

id-0 

while True: 


, 


ret,im-emycap.read() 
cv2.imshow('myvideo',im) 
# 每 15 毫秒 采集 1 次 
key-cv2.waitKey(15) 
# 空格 键 退出 
if key==32: 
break 
$c 键 采集 
elif key--ord('c'): 
cv2.imwrite('vd "'«str(id)«'.png',im) 
id«-1 


程序 11-5.py 运行 后 ， 将 出 现 从 摄像 头 实时 采集 的 图 像 ， 如 图 11-9 所 示 。 





图 11-9 摄像头 实 时 采集 的 图 像 1 
每 次 按 c 键 后 ， 采 集 连 接 图 像 ， 如 图 11-10 至 图 11-13 所 示 的 图 像 序 列 。 
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图 11-10 图 像 序列 2 图 11-11 图 像 序列 3 





图 11-12 图 像 序列 4 图 11-13 图像 序列 5 





2. 图 像 序 列 数组 
可 按 帧 生成 视频 图 像 序 列 数 组 ， 程 序 11-6.py 演示 了 对 视频 图 像 的 抓 图 保存 。 


# -*- coding: utf-8 -*- 
#coding:myhaspl@myhaspl .com 
# 采集 视频 生成 视频 帧 数组 
#11-6.py 
import cv2 
# 设置 需要 采集 视频 的 设备 ID 为 0， 从 第 0 个 摄像 头 采 集 
mycap-cv2.VideoCapture(0) 
myframes-[] 
while True: 
ret,im-mycap.read() 
cv2.imshow('myvideo',im) 
# 采集 
myframes.append(im) 
$515 毫秒 采集 1 次 
key-cv2.waitKey (15) 
# 空格 键 退出 
if key--32: 
break 
# 生成 视频 帧 数组 


myframes-np.array (myframes) 
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3. 读 取 视 频 文 件 

除了 从 摄像 头 采 集 数据 外 ， 还 可 从 视频 文件 获取 视频 ， 用 如 下 格式 的 Python 代码 来 
实现 : 

mycapture-cv2.VideoCapture(" 文件 名 ") 


11.3.2 “差分 算法 


1. 差分 检测 

差分 检测 根据 当前 图 像 与 参考 图 像 的 差别 分 析 来 判断 序列 图 像 中 是 否 有 运动 的 物体 ， 在 
环境 亮度 变化 不 大 的 情况 下 ， 如 果 对 应 像素 灰 度 值 的 差异 小 于 某 个 国 值 ， 则 认为 画面 静止 无 
运动 变化 ， 如 果 图 像 区域 某 处 的 灰 度 变化 大 于 某 个 靖 值 ， 则 认为 这 是 由 于 图 像 中 运动 的 物体 
所 引起 的 ， 然 后 求 出 运动 目标 在 图 像 中 的 位 置 。 

根据 差分 的 参考 图 像 不 同 ， 可 以 分 为 基于 相 邻 帧 差 的 算法 和 基于 背景 图 像 与 当前 帧 差 的 
算法 : 基于 相 邻 帧 差 的 算法 是 将 前 后 两 帧 图 像 对 应 像素 点 的 灰 度 值 相 减 ， 基 于 背景 图 像 与 当 
前 帧 差 的 算法 则 是 将 当前 帧 和 背景 帧 对 应 像素 的 灰 度 值 相 减 。 

下 面 将 以 实例 来 说 明 该 算法 。 图 11-14 ~ 图 11-19 是 某 视 频 的 6 个 截图 ， 根 据 这 6 个 运 
动 图 像 序列 ， 判 断 画面 在 何 时 出 现 了 运动 的 物体 ， 输 出 警告 信息 ， 并 生成 运动 效果 组 合 图 。 





图 11-14 视频 的 截图 1 图 11-15 视频 的 截图 2 





图 11-16 视频 的 截图 3 图 11-17 视频 的 截图 4 
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图 11-18 ”视频 的 截图 5 图 11-19 视频 的 截图 6 


2. 基于 相 邻 帧 差 的 算法 

基于 相 邻 帧 差 的 算法 过 程 如 下 : 

1) 将 当前 帧 的 灰 度 图 像 与 前 一 帧 的 灰 度 图 像 相 减 ， 得 到 差分 值 ， 当 差分 值 大 于 某 个 立 
值 时 ， 将 差分 矩阵 的 相应 位 置 设置 为 1， 和 否则 设置 为 0， 差分 矩阵 的 计算 公式 如 下 : 

D(G,j- | : A 

HRAJ) RRB k NEURE G, j) 处 的 灰 度 值 ,D(i,j) 表示 差分 矩阵 Gj) 处 的 值 。 

2) 如 果 差 分 矩阵 不 全 为 0， 则 表示 检测 到 运动 。 如 果 有 必要 ， 可 按 一 定 的 运动 检测 次 数 
对 运动 画面 进行 分 组 ， 并 融合 私 加 形成 多 组 运动 轨迹 图 。 

3) 取 下 一 帧 图 像 ， 转 到 ( 1 )， 直 到 所 有 帧 图 像 全 部 处 理 完毕 后 退出 。 

用 Python 代码 实现 该 算法 ， 如 程序 11-7.py 所 示 。 


# -*- coding: utf-8 -*- 

fcode:myhaspl8myhaspl.com 

4 差分 运动 检测 ， 相 邻 帧 差 检测 画面 中 是 否 有 运动 的 物体 

#11-7.py 

import cv2 

import numpy as np 

i 读 取 运动 序列 图 像 

fn-[] 

for i in xrange(6): 
fn.append(str(is1)-«".png") 


img-[] 
colorimg-[] 
myimg-[] 


for i in xrange(6): 
tmpimg-(cv2.imread(fn[il)) 
colorimg.append (tmpimg) 
myimg-cv2.cvtColor(tmpimg,cv2.COLOR BGR2GRAY) 
img.append (myimg) 


ww ai bot. com [1 BH D B B. D. 


454 e 第 四 部 分 ”机 器 学 习 实 战 篇 


LE 差分 计算 

myimgl=colorimg[0] .copy () 
myimg2-myimg1.copy() 
w-myimgl.shape[1] 

hemyimgl.shape[0] 
moveimgl-np.zeros((h,w),np.uint8 ) 
moveimg2-np.zeros((h,w,3),np.uint8 ) 
for ii in xrange(5): 


print un 开始 分 析 第 "+str (ii+2)+tu" 个 运动 图 像 ..." 
myd=img [ii+1] -img[ii] 
# 生成 差分 矩阵 
THRESHOLD-int (np.median (abs (myd)))# 取 中 位 数 做 为 阅 值 
mymove-np.ones([h,w],np.uint8) 
for i in xrange(h): 
for j in xrange(w): 
if abs(myd[i,j])«THRESHOLD or myd[i,j]--0: 
mymove[i,j]-0 
# 如 果 有 物体 运动 则 输出 报警 ， 并 生成 运动 效果 三 加 图 
if np.sum(mymove)»0 : 
print u" 第 "+str(ii+2)+u" 个 运动 图 像 发 生 了 变化 1" 
moveimgl-img[ii«l1]*(1-mymove)*0.16«img[ii]*(1-mymove)*0.16«moveimgl 
moveimg2-colorimg[ii«1]*0.16«colorimg[ii]*0.16«moveimg2 
moveimgi-np.array (moveimgl,np.uint8) 
moveimg2-np.array (moveimg2,np.uint8) 


# 显示 运动 画面 

# 计算 运动 部 分 
moveimgi-moveimgl-img[0] 

3E IS — l8 16 DLE HE Eom 50 UL CR S 
retval, showimgl-cv2.threshold(moveimg1,140,255,cv2.THRESH BINARY) 
showimgi-showimgl 
showimg2-moveimg2 
cv2.imshow("movel",showimgl) 
cv2.imshow("move2",showimg2) 
cv2.waitKey() 
cv2.destroyAllWindows() 


运行 程序 11-7.py， 程 序 检测 到 第 2、3、4、6 帧 时 ， 图 像 发 生 了 变化 ， 运 行 结果 如 下 : 


开始 分 析 第 2 个 运动 图 像 . . . 
第 2 个 运动 图 像 发 生 了 变化 ! 
开始 分 析 第 3 个 运动 图 像 . . 
第 3 个 运动 图 像 发 生 了 变化 ! 
开始 分 析 第 4 个 运动 图 像 ... 
第 4 个 运动 图 像 发 生 了 变化 ! 
开始 分 析 第 5 个 运动 图 像 . . 
开始 分 析 第 6 个 运动 图 像 . . 
第 6 个 运动 图 像 发 生 了 变化 ! 


程序 11-7.py 绘制 了 使 用 相 邻 帧 差分 法 检测 的 运动 效果 ， 如 图 11-20 所 示 。 
观察 图 11-20， 左 边 的 图 像 为 运动 图 像 的 融合 ， 右 边 的 图 像 为 程序 提取 运动 部 分 的 灰 度 
图 ， 可 较 直 观 地 看 出 手 拿 着 笔 摆 动 时 的 运动 路 径 和 运动 速度 。 
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图 11-20 ”运动 效果 


3. 基于 背景 图 像 与 当前 帧 差 的 算法 

该 算法 的 具体 过 程 如 下 : 

1) 将 当前 帧 的 灰 度 图 像 与 背景 灰 度 图 像 相 减 ， 得 到 差分 值 ， 当 差分 值 大 于 某 个 阔 值 时 ， 
将 差分 矩阵 的 相应 位 置 设置 为 1， 否则 设置 为 0， 差分 矩阵 计算 公式 如 下 : 

- 1 fa) -AGJ) THRESHOLD 其 中 上 E [2,n] 
D(ij ,={ 0 其 他 

ERP, AJ) RRB k AEREE Cj) 处 的 灰 度 值 ，D(i,j) 表示 差分 矩阵 C, j) 处 
的 值 。 

2) 如 果 差 分 矩阵 不 全 为 0， 则 表示 检测 到 运动 。 如 果 有 必要 ， 可 按 一 定 的 运动 检测 次 数 
对 运动 画面 进行 分 组 ， 并 融合 和 至 加 形成 多 组 运动 轨迹 图 。 

3) 取 下 一 帧 图 像 ， 转 到 ( 1 )， 直 到 2 个 帧 的 图 像 全 部 处 理 完 毕 后 退出 。 

用 Python 代码 实现 该 算法 ， 如 程序 11-8.py 所 示 。 

* -*- coding: utf-8 -*- 

dcode:myhasplemyhaspl.com 

# 差分 运动 检测 ， 基 于 背景 图 像 与 当前 帧 差 来 检测 画面 中 是 否 有 运动 的 物体 

#11-8 .py 


import cv2 
import numpy as np 


# 读 取 运动 序列 图 像 

fn-[] 

for i in xrange(6): 
fn.append("mv"«str(i«1)-«".png") 


img-[] 
colorimg-[] 
myimg-[] 


for i in xrange(6): 
tmpimg-(cv2.imread(fn[i])) 
colorimg.append(tmpimg) 
myimg-cv2.cvtColor(tmpimg,cv2.COLOR BGR2GRAY) 
img.append (myimg) 
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# 差分 计算 
myimg-colorimg[0].copy() 
w-zmyimg.shape[1] 
hemyimg.shape[0] 


moveimg-np.zeros((h,w,3),np.uint8 ) 
for ii in xrange(5): 


print u" 开始 分 析 第 "+str (ii+2)+un" 个 运动 图 像 . 
myd=img[ii+1] -img[0] 
# 生成 差分 矩阵 
THRESHOLD-int (np.median (abs (myd) ) )# 取 中 位 数 做 为 闽 值 
mymove-np.ones([h,w],np.uint8) 
for i in xrange(h): 
for j in xrange(w): 
if abs(myd[i,j])«THRESHOLD or myd[i,j]--0: 
mymove[i,j]l-0 
# 如 果 有 物体 运动 则 输出 报警 
if np.sum(mymove)»0 : 
print u" 第 "4str(ii«2)«u" 个 运动 图 像 发 生 了 变化 1" 
moveimg-colorimg[ii«1]*0.16«colorimg[ii]*0.164moveimg 
moveimg-np.array (moveimg,np.uint8) 





# 显示 移动 部 分 
showimg-moveimg 
cv2.imshow("move",showimg) 
cv2.waitKey() 
cv2.destroyAllwindows|() 


程序 11-8.py 绘制 了 检测 到 的 运动 效果 (如 图 11-21 所 示 )， 并 输出 结果 如 下 : 
开始 分 析 第 2 个 运动 图 像 ... 


第 2 个 运动 图 像 发 生 了 变化 ! 
开始 分 析 第 3 个 运动 图 像 ... 
第 3 个 运动 图 像 发 生 了 变化 ! 
开始 分 析 第 4 个 运动 图 像 . . 
第 4 个 运动 图 像 发 生 了 变化 ! 
开始 分 析 第 5 个 运动 图 像 . . . 
第 5 个 运动 图 像 发 生 了 变化 ! 











开始 分 析 第 6 个 运动 图 像 ... 

从 图 11-21 中 可 较 直 观 地 看 出 手 拿 着 笔 
摆动 时 的 运动 路 径 和 运动 速度 。 
11.3.3 ” 光 流 法 


1. 光 流 法 概述 

光 流 ( Optical Flow/Optic Flow) 是 关于 视 域 中 的 物体 运动 检测 的 概念 。 用 来 描述 相对 于 
观察 者 的 运动 所 造成 的 观测 目标 、 表 面 或 边缘 的 运动 。 光 流 法 在 模式 识别 、 计 算 机 视觉 及 其 
他 图 像 处 理 中 非常 有 用 ， 可 用 于 运动 检测 、 物 件 切割 、 碰 撞 时 间 与 物体 膨胀 的 计算 、 运 动 补 
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偿 编码 ,或 者 通过 物体 的 表面 与 边缘 进行 立体 的 测量 和 

光 流 法 的 基本 原理 为 : 光 流 是 空间 运动 物体 在 观测 成 像 面 上 的 像素 运动 的 瞬时 速度 。 光 
流 的 研究 是 利用 图 像 序列 中 的 像素 强度 数据 的 时 域 变化 和 相关 性 来 确定 各 自 像 素 位 置 的 "s 
动 "， 即 研究 图 像 灰 度 在 时 间 上 的 变化 与 景象 中 的 物体 结构 及 其 ee 
光 流 是 由 相机 运动 、 场 景 中 的 目标 运动 或 两 者 的 共同 运动 产生 的 。 光 流 的 计算 方法 大 致 可 分 
为 三 类 : 基于 匹配 的 、 频 域 的 和 梯度 的 方法 。 

光 流 法 的 前 提 假 设 如 下 : 

O 相 邻 帧 之 间 的 亮度 恒定 。 

O 相 邻 视频 帧 的 取 帧 时 间 是 连续 的 ， 或 者 说 ， 相 邻 帧 之 间 物 体 的 运动 比较 “微小 ” 。 

口 保持 空间 的 一 致 性 ， 即 同一 子 图 像 的 像素 点 具有 相同 的 运动 。 


2. Python 实现 
程序 11-9.py 从 摄像 头 采 集 图 像 ， 然 后 对 每 个 连续 的 图 像 进 行 光 流 估计 ， 并 绘制 流 矢量 ， 
效果 如 图 11-22 所 示 。 


t -*— goodings utf-8 -*- 
dcoding:myhaspl8amyhaspl.com 
# 光 流 法 

#11-9.py 

import cv2 

import numpy as np 


def flowdraw(im,flow,step-14): 
# 绘制 光 流 
h,w-im.shape[:2] 
y,x-np.mgrid[step/2:h:step,step/2:w:step].reshape(2,-1) 
fx,fy-flow[y,x].T 
# 线 终点 
lines-np.vstack([x,y,x*fx,y«fy]).T.reshape(-1,2,2) 
lines-np.int32(lines) 
# 创建 图 像 
myvis-cv2.cvtColor(im,cv2.COLOR GRAY2BGR) 
for (xl,y1),(x2,y2) in lines: 
cv2.line(myvis, (x1,y1),(x2,y2),(0,255,0),1) 
cv2.circle(myvis, (x1,y1),1,(0,255,0),-1) 
return myvis 
# 设置 需要 采集 视频 的 设备 ID 为 0， 从 第 0 个 摄像 头 采集 
mycap-cv2.VideoCapture(0) 
# 前 一 个 图 像 
ret,im-mycap.read() 
prev pic-cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


while True: 
ret,im-mycap.read() 
# 采集 
pic-cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 
# 计算 流 
myflow-cv2.calcOpticalFlowFarneback(prev pic,pic,0.5,3,15,3,5,1,0) 
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# 上 帧 图 像 赋值 
prev pic-pic 
# 绘制 流 矢量 
cv2.imshow('myvideo flow ',flowdraw(pic,myflow)) 
# 每 15 毫秒 采集 1 次 
key=cv2.waitKey (15) 
# 空格 键 退 出 
if key==32: 
break 





图 11-22” 光 流 法 


观察 图 11-22， 从 流 矢量 线条 及 箭头 的 方向 中 可 以 发 现 手 电 简 正在 从 左 到 右 移动 。 


11.4 ”形状 检测 


11.4.1 KNN 算法 概述 


K 最 近邻 ( KNN k-NearestNeighbor) 分 类 算法 可 以 说 是 整个 数据 分 类 技术 中 最 简单 的 
方法 了 了。 所 谓 K 最 近邻 ,就 是 个 最 近 的 邻居 的 意思 ,说 的 是 每 个 样本 都 可 以 用 它 最 靠近 的 
个 邻居 来 代表 。KNN 算法 的 核心 思想 是 : 如 果 一 个 样本 在 特征 空间 中 的 个 最 相 邻 的 样本 
中 的 大 多 数 都 属于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 ， 并 具有 这 个 类 别 上 样本 的 特性 ， 
算法 在 确定 分 类 决策 上 只 需要 依据 最 邻近 的 一 个 或 几 个 样本 的 类 别 即 可 决定 待 分 样本 所 属 的 
类 别 ， 因 此 ， 在 做 类 别 决 策 时 ， 只 与 极 少 量 的 相 邻 样本 有 关 。 

由 于 KNN 方法 主要 靠 周围 有 限 的 邻近 样本 ， 而 不 是 靠 判 别 类 域 的 方法 来 确定 所 属 的 
类 别 ， 因 此 对 于 类 域 的 交叉 或 重 释 较 多 的 待 分 样本 集 来 说 ，KNN 方法 较 其 他 的 方法 更 为 
合适 。 
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以 二 维 样 本 为 例 ， 利 用 KNN 方法 将 样本 分 成 两 类 。 图 11-23 中 三 角形 和 方形 是 已 知 类 
别 的 样本 点 ， 这 里 假设 三 角形 为 正 类 ， 方 形 为 负 类 ， 圆 形 点 是 未 知 类 别 的 数据 ， 现 在 需要 利 
用 这 些 已 知 类 别 的 样本 对 圆 形 点 进行 分 类 。 

对 图 11-23 的 圆 形 点 进行 KNN 分 类 的 具体 
过 程 如 下 : 

1) 事先 定 下 k 值 (就 是 指 K 近邻 方法 中 
的 大 小 ， 代 表 对 于 一 个 待 分 类 的 数据 点 ， 要 寻找 
它 的 几 个 邻居 )。 为 讲解 方便 ， 取 两 个 k 值 ， 分 
别 为 3 和 5。 

2) 根据 事先 确定 的 距离 度量 公式 (如 : 欧 
氏 距 离 )， 得 出 待 分 类 数据 点 和 所 有 已 知 类 别 的 
样本 点 中 ， 距 离 最 近 的 k 个 样本 。 

3) 统计 这 个 样本 点 中 各 个 类 别 的 数量 。 
如 图 12-15， 如 果 选 定 值 为 3， 则 正 类 样本 
(三 角形 ) 有 2 个 ， 负 类 样本 (方形 ) 有 1 个 , I 
么 就 把 这 个 圆 形 数据 点 定 为 正 类 ; 而 如 果 选 择 值 为 5， 则 正 类 样本 (三 角形 ) 有 2 个 ， 负 类 
样本 (方形 ) 有 3 个 ,那么 将 这 个 数据 点 定 为 负 类 。 即 ,根据 个 样本 中 ， 数 量 最 多 的 样本 
是 什么 类 别 ， 就 把 这 个 数据 点 定 为 什么 类 别 。 


11.4.2 ”形状 特征 提取 
图 11-24 是 三 个 典型 的 形状 ， 分 别 是 方形 、 圆 形 和 三 角形 。 
那么 如 何 提取 图 11-24 所 示 的 三 个 形状 的 特 
征 呢 ， 可 使 用 距 中 心 距 离 法 ， 具 体 过 程 如 下 : 
1) 确定 图 像 的 中 心 点 center， 通 常 是 图 片 
的 中 间 位 置 。 
2) 计算 图 像 线条 上 的 每 个 点 x 与 中 心 点 
center 之 间 的 距离 (两 点 间 的 距离 公式 )， 形 成 距 
离 向 量 d。 
3) 计算 距离 向 量 d 的 标准 差 。 以 标准 差 为 最 终 特征 值 。 


11.4.3 ”形状 分 类 

本 算法 为 KNN 算法 的 变 体 ， 本 案例 每 种 形状 只 提供 了 一 个 样本 ， 因 此 ,将 KNN 算法 
中 的 值 取 1， 以 最 近 的 那个 邻近 点 的 类 别 判断 未 知 形状 的 分 类 。 

算法 具体 过 程 为 : 首先 采集 样本 图 像 (图 11-24 所 示 的 样本 图 像 文件 名 从 左 到 右 分 别 是 
shape0.png, shapel.png, shape2.png) 的 特征 值 ， 然 后 以 未 知 形状 图 像 的 特征 值 为 分 类 数据 ， 
进行 KNN 分 类 ， 最 后 将 未 知 图 像 归 为 上 图 所 示 的 3 类 之 中 ， 从 左边 数 起 ， 类 别 分 别 为 0 ( 方 
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图 11-23 K 近邻 算法 示意 图 


图 11-24 典型 的 形状 
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形 )、1 ( 圆 形 )、2 (三 角形 )，Python 代码 如 程序 11-10.py 所 示 。 


# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
# 形状 检测 

#11-10.py 

import cv2 

import numpy as np 


def mydist(pointl,point2): 
# 两 点 间 的 距离 
return 
np.sqrt (np.power ( (point1[0] -point2[0]),2)+np.power( (point1[1]-point2[1]),2)) 


# 离 中 心 点 距离 的 标准 差 
def getstd(tmpimg,centerpoint): 
w-tmpimg.shape[1] 
h-tmpimg.shape[0] 
dst-[] 
for i in xrange(h): 
for j in xrange(w): 
if tmpimg[i,j]«255: 
# 该 像素 不 是 空白 ,是 线条 中 的 点 
dst.append(mydist((i,j),centerpoint)) 
mysd-np.std(dst) 
return mysd 
# 读 取样 本 形状 图 像 ， 计 算 标 准 差 
imgsd-[] 
testimgsd-[] 
mysdratio-[] 
centerpoint- (26,26) 
for i in xrange(3): 
tmpimg- (cv2.imread("shape"«str(i)-«".png")) 
myimg-cv2.cvtColor(tmpimg,cv2.COLOR BGR2GRAY) 
retval, newimg-cv2.threshold(myimg,40,255,cv2.THRESH BINARY) 
myimg-cv2.resize(newimg, (51,51)) 
imgsd.append(getstd (myimg, centerpoint) ) 


for i in xrange(4): 
# 测试 样本 
fn-"shapetest "«str(i)«".png" 
tmpimg-(cv2.imread(fn)) 
myimg-cv2.cvtColor (tmpimg,cv2.COLOR BGR2GRAY) 
retval, newimg-cv2.threshold(myimg,40,255,cv2.THRESH BINARY) 
myimg-cv2.resize(newimg, (51,51)) 
# 得 到 距离 标准 差 
testimgsd.append(getstd (myimg,centerpoint)) 
mysdratio.append((]) 
for ii in xrange(3): 


# 与 样本 进行 比较 
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mysdratio[i].append(abs(testimgsd[i]-imgsd[ii])) 


print u"KNN 距离 矩阵 如 下 ， 
print mysdratio 
print "-------------- " 
#KNN 算法 ， 找 到 最 近邻 
for i in xrange(4): 
fn-"shapetest "«str(i)-«".png" 
myindex-0 
mymin-np.min(mysdratio[il) 
for ii in xrange(3): 
# 测试 样本 最 终 分 类 
if (mysdratio[i][ii])--2mymin: 
myindex-ii 
break 
print fn«u" 分 类 为 : "+str(myinaex) 


执行 程序 11-10.py 后 ， 输 出 KNN 距离 矩阵 及 分 类 结果 ， 类 别 0 表示 方形 ， 类 别 1 表示 
圆 形 ， 类 别 2 表示 三 角形 。 结 果 如 下 : 


KNN 距离 矩阵 如 下 

[[0.71030223330565079, 0.75471514364899916, 3.9533561391620591], 
[1.2922713309313281, 0.17274604602332189, 4.5353252367877364], [2.0123227209027084, 
3.4773400978573585, 1.2307311849536999], [0.49271253133816462, 0.97230484561648534, 
3.7357664371945729]] 


shapetest 0.png 分 类 为 : 0 
shapetest 1l.png 分 类 为 : 1 
shapetest 2.png 分 类 为 : 2 
shapetest 3.png 分 类 为 : 0 


程序 11-10.py 使 用 的 测试 图 像 如 图 11-25 所 示 。 


JOAO 


shapetest_0.png shapetest_1.png shapetest_2.png shapetest_3.png 
图 11-25 ”测试 图 像 


观察 图 11-25 及 程序 11-10.py 的 输出 结果 ， 可 发 现 测试 图 像 的 分 类 结果 是 正确 的 ， 效 果 
还 不 错 。 

为 提高 分 类 准确 率 ， 实 践 中 可 采用 标准 的 KNN 算法 ， 为 每 种 形状 提供 更 多 的 样本 ， 分 
类 的 方法 为 : 如 果 与 未 知 形状 的 上 个 最 相似 的 大 多 数 样本 属于 某 一 个 类 别 ， 那 么 该 未 知 形状 
也 属于 这 个 类 别 。 
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11.5 ”小结 


计算 机 视觉 研究 使 机 器 能 看 懂 图 像 ， 属 于 人 工 智能 和 机 器 学 习 的 范畴 。 目 前 机 器 视觉 实 
现 的 主要 方式 是 : 首先 ， 使 用 摄像 机 等 设备 采集 画面 ， 生 成 数字 图 像 ; 然后 ， 对 图 像 进行 预 
处 理 和 加 工 ， 提 取 特 征 ; 最 后 ， 分 析 图 像 特 征 ， 挖 掘 图 像 包含 的 知识 和 信息 。 本 章 讲述 了 运 
用 机 器 学 习 算 法 对 视频 和 图 像 进 行 加 工 、 分 析 、 提 取 特 征 、 总 结 知识 等 技术 ， 首 先 介绍 了 人 
脸 辩 识 的 算法 ， 然 后 讲解 了 手写 数字 识别 的 算法 ， 最 后 讲述 了 运动 侦 测 技术 和 形状 检测 的 方 
法 ,在 讲解 这 些 算 法 的 过 程 中 ， 注 重 实践 效果 ， 每 个 实例 均 用 Python 进行 实现 ， 以 验证 算法 
的 有 效 性 。 


思考 题 


(1 ) 以 多 个 图 像 进行 更 多 的 人 脸 辨 识 实 验 ， 尝 试 应 用 更 多 的 机 器 学 习 算法 ， 比 如 应 用 
SVM 和 神经 网 络 ， 或 者 对 欧 氏 距离 算法 进行 进一步 改进 ， 对 人 脸 的 不 同 部 位 赋予 不 同 的 权 
重 ， 总 结 各 算法 的 实际 应 用 效果 。 

(2) 实现 从 a 到 z 的 24 个 字母 图 像 的 识别 算法 ， 要 求 识 别 未 知 样本 图 像 表征 的 字母 。 

(3) 运用 本 章 介绍 的 运动 侦 测 方法 ， 分 析 自 己 的 计算 机 摄像 头 所 采集 的 视频 。 

(4) 运用 本 章 介 绍 的 形状 检测 方法 或 其 他 方法 ， 对 某 类 复杂 的 鼠标 (或 触摸 屏 输 入 ) F 


势 进行 识别 ， 比 如 以 下 手势 : 
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文本 分 类 案例 


在 网 络 信息 时 代 ， 全 球 正面 临 着 前 所 未 有 的 信息 爆炸 式 增长 的 挑战 ， 中 文 信息 处 理 也 
迎 来 了 高 速 发 展 。 如 果 拥 有 着 海量 的 中 文 文字 数据 对 数据 知识 的 提取 依旧 停留 在 过 去 简单 
查询 、 检 索 的 水 平 上 ， 那 么 就 会 导致 所 谓 的 “数据 爆炸 但 知识 贫乏 ”的 现象 。 从 中 文 信息 
中 获取 知识 ， 快 速 有 效 地 组 织 和 管理 用 户 所 要 的 信息 是 当前 信息 科学 和 技术 所 面临 的 重要 
挑战 。 

数据 挖掘 技术 致力 于 从 海量 数据 中 提取 有 用 的 信息 ， 文 本 分 类 等 文本 挖掘 技术 则 属于 数 
据 挖掘 领域 中 被 研究 的 热点 。 文 本 挖掘 是 人 工 智 能 、 机 器 学 习 、 自 然 语 言 处 理 、 数 据 挖掘 及 
相关 自动 文本 处 理 (如 信息 抽取 、 信 息 检 索 ) 等 领域 中 理论 和 技术 结合 的 产物 。 文 本 分 类 是 
文本 挖掘 领域 的 一 个 重要 分 支 ， 而 且 逐 渐 成 为 一 个 日 益 重 要 的 研究 领域 。 自 动 文 本 分 类 则 会 
依据 文本 内 容 ， 由 计算 机 根据 某 种 自动 分 类 算法 把 文本 划分 为 预先 定义 好 的 类 别 ， 它 是 对 复 
杂 类 型 的 数据 进行 挖掘 的 技术 。 


12.1 文本 分 类 概述 


近年 来 ， 随 着 互联 网 的 高 速 发 展 和 大 数据 时 代 的 到 来 ， 文 本 分 类 等 文本 挖掘 技术 应 用 于 
越 来 越 多 的 领域 。 互 联网 和 大 数据 是 信息 技术 发 展 催生 的 一 对 挛 生 子 。 互 联网 能 够 方便 、 准 
确 地 记录 用 户 数据 ,产生 了 大 量 的 半 结 构 化 、 非 结构 化 的 文本 数据 ， 这 也 使 互联 网 成 为 大 数 
据 分 析 应 用 最 广泛 的 领域 之 一 。 例 如 : 搜索 引擎 技术 的 基础 就 是 基于 文本 分 析 算 法 的 ， 而 面 
向 互联 网 用 户 的 精准 营销 则 是 以 广告 数据 分 析 (现在 已 经 催生 了 一 门 科学 “计算 广告 学 ” ) 为 
依据 的 。 海 量 文档 数据 库 需要 高 效 的 文本 挖掘 算法 作为 数据 索引 、 查 询 分 析 的 核心 算法 ， 智 
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能 输入 法 需要 分 析 用 户 输入 习惯 及 输入 的 词句 ， 自 动 客服 系统 由 原始 的 词语 匹配 技术 转变 为 
基于 文本 挖掘 的 自然 语言 理解 算法 。 

分 类 技术 是 数据 挖掘 中 非常 重要 的 分 支 。 分 类 就 是 根据 数据 集 的 特点 找 出 类 别 的 概念 描 
述 ， 这 个 概念 描述 代表 了 这 类 数据 的 整体 信息 ， 也 就 是 该 类 的 内 涵 描 述 ， 使 用 这 种 类 的 描述 
可 对 未 来 的 测试 数据 进行 分 类 。 

文本 控 掘 算法 在 搜索 引擎 中 一 直 扮 演 着 重要 的 角色 ， 搜 索引 擎 每 个 阶段 的 发 展 都 伴随 着 
文本 挖掘 技术 的 进步 。1990 年 ， 作 为 可 搜索 FTP 文件 名 列表 的 Archie， 通 过 文件 名 匹配 技 
术 完 成 了 文本 检索 。1993 年 ， 世 界 上 第 一 个 Spider 程序 World Wide Web Wanderer 开始 
在 网 络 间 疏 取 资料 ， 统 计 互 联网 上 的 服务 器 数量 。 同 年 ，Stanford 大 学 的 学 生 创造 了 Excite, 
它 通 过 分 析 字 词 关 系 进行 更 有 效 的 检索 ， 文 本 挖掘 技术 再 次 进步 。1994 年 ， 杨 致远 和 David 
Filo 共 创 办 了 Yahoo, Yahoo 网 站 的 分 类 目录 由 人 工整 理 维护 ， 他 们 会 精 选 互联 网 上 的 优秀 
网 站 ， 进 行 简要 描述 后 ， 分 类 放置 到 不 同 目录 下 。 用 户 查 询 时 ， 通 过 一 层 层 的 点 击 来 查找 
自己 想 找 的 网 站 ， 人 工分 类 精准 度 高 ， 但 工作 量 很 大 。 同 年 Lycos 正式 发 布 ，Lycos 使 用 
了 更 先进 的 文本 挖掘 技术 ， 包 括 : 相关 性 排序 、 前 缀 匹配 和 字符 相近 限制 、 网 页 自动 摘要 
等 。1995 年 ， 更 多 的 文本 挖掘 技术 陆续 产生 ，AltaVista 在 搜索 引擎 中 引入 了 自然 语言 搜索 
技术 ， 实 现 高 级 搜索 语法 (如 AND, OR, NOT 等 )。1997 年 ， 文 本 自动 分 类 技术 首次 应 用 
于 Northernlight 搜索 引擎 ， 该 搜索 引擎 支持 对 搜索 结果 进行 简单 的 自动 分 类 。 同 年 ，google. 
com 的 域名 被 Larry Page 注册 ，Google 横 空 出 世 ， 之 后 发 展 成 为 今天 的 搜索 业 巨 头 。2013 
年 全 球 在 线 广告 营 收 中 ，Google 预计 占有 超过 33% 的 市 场 份额 ， 在 全 球 移动 广告 营 收 中 ， 
Google 的 市 场 份 额 约 56%。Google 研究 和 应 用 了 大 量 文本 挖掘 算法 ， 例 如 : Pagerank, Z) 
态 摘要 、 网 页 快照 、DailyRefresh、 多 文档 格式 支持 等 。 有 人 评论 说 Google 永远 改变 了 搜索 
引 警 的 定义 。2001 F, HERRIE, M Google 一 样 ， 百 度 也 研发 和 使 用 了 很 多 文本 
挖掘 算法 : 网 页 快照 、 相 关 搜 索 词 、 错 别 字 纠正 、Flash 搜索 、 信 息 快 递 搜 索 、 图 像 搜 索 、 
新 闻 搜 索 等 。 

近年 来 ， 借 助 模式 识别 算法 ， 文 本 分 类 技术 飞速 发 展 。 文 本 分 类 大 致 分 为 几 个 要 素 : X 
本 向 量 模型 表示 、 文 本 特征 选择 和 文本 训练 分 类 器 。 目 前 比较 流行 的 分 类 方法 主要 有 SVM, 
改进 余弦 相似 度 、 贝 叶 斯 方法 、 神 经 网 络 、k2 最 近邻 方法 、 遗 传 算法 、 粗 糙 集 等 。 文 本 分 类 
算法 通常 包括 文本 预 处 理 (中 文 分 词 、 去 除 停 用 词 )、 文 本 特征 提取 、 样 本 特征 学 习 及 算法 对 
未 知 样本 的 预测 等 过 程 。 

本 章 将 以 余弦 相似 度 、 朴 素 贝 叶 斯 分 类 算法 为 主 ， 阐 述 文本 分 类 技术 。 





12.2 余弦 相似 度 分 类 


基于 余弦 相似 度 的 文本 分 类 算法 实现 的 基本 过 程 为 : 首先 对 样本 文本 进行 分 词 ， 接 着 将 
垃圾 词 剔 除 ， 然 后 根据 剔除 后 的 词 条 把 样本 文本 中 的 所 有 词 映 射 到 nm 维 空间 的 一 个 向 量 上 ， 
并 计算 未 知 文本 特征 组 形成 的 向 量 与 各 类 别 特 征 组 向 量 之 间 夹 角 的 余弦 值 ， 最 后 通过 比较 余 
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弦 值 的 大 小 判断 最 接近 的 分 类 。 


12.2.1 ”中 文 分 词 


中 文 分 词 指 的 是 将 一 个 汉字 序列 切 分 成 一 个 个 单独 的 词 。 中 文 分 词 是 文本 挖掘 的 基础 ， 对 
于 一 段 中 文 文本 ， 中 文 分 词 是 文本 自动 识别 的 前 提 。 目 前 常用 的 中 文 分 词 软件 主要 有 以 下 几 种 : 

口 SCWS。 基 于 词 频 词 典 的 机 械 中 文 分 词 引擎 ， 它 能 将 一 整 段 的 汉字 基本 正确 地 切 分 成 
词 。 采 用 的 是 采集 的 词 频 词 典 ( 词 频 TF 指 某 一 个 给 定 的 词语 在 一 份 给 定 的 文件 里 出 
现 的 次 数 ， 近 年 来 ， 利 用 计算 机 进行 词 频 统计 ， 以 词 频 统计 的 结果 来 验证 词典 收 词 的 
得 失 ， 决 定 哪些 词 需要 收录 ， 中 文 词 频 词典 按 词 频 排序 存储 词语 和 词组 )， 并 辅 以 一 
定 的 专 有 名 称 、 人 名 、 地 名 、 数 字 、 年 代 等 识别 规则 ， 从 而 达到 基本 分 词 的 目的 。 

口 ICTCLAS。 这 是 最 早 的 中 文 开 源 分 词 项 目 ， 在 国内 973 专家 组 组 织 的 评测 活动 中 获 
得 了 第 一 名 ， 在 第 一 届 国 际 中 文 处 理 研究 机 构 SigHan 组 织 的 评测 中 获得 了 多 项 第 一 
名 。ICTCLAS 全 部 采用 C/C++ 编写， 支持 Linux, FreeBSD 及 Windows 系列 操作 系统 ， 
支持 C/C++、C#、Delphi、Java 等 主流 的 开发 语言 。 

口 HTTPCWS。 基 于 HTTP 协议 的 开源 中 文 分 词 系 统 ， 将 取代 之 前 的 PHPCWS 中 文 分 


词 扩展 。 
口 应 丁 解 牛 分 词 。 仅 支持 Java 语言 ， 且 提供 lucence (一 款 流行 的 Java 全 文 搜索 引擎 ) 
He 


口 CC-CEDICT。 提 供 一 份 以 汉语 拼音 为 中 文 辅助 的 汉 英 辞典 ， 其 词典 可 以 用 于 中 文 分 
词 ，Chrome 中 文 版 就 是 使 用 这 个 词典 进行 中 文 分 词 的 。 

口 “ 结 巴 ”( Jieba) 中 文 分 词 。Python 中 文 分 词组 件 Jieba 支持 3 种 分 词 模 式 : 精确 模式 ， 
试图 将 句子 最 精确 地 切 开 ,适合 文本 分 析 ; 全 模式 ， 把 句子 中 所 有 的 可 以 成 词 的 词语 
都 扫描 出 来 ， 速 度 非常 快 ， 但 是 不 能 解决 歧义 ; 搜索 引擎 模式 ， 在 精确 模式 的 基础 上 
对 长 词 再 次 切 分 ， 提 高 招 回 率 ， 适 合用 于 搜索 引擎 分 词 。 

本 章 基 于 Python 实现 算法 ， 因 此 选择 “结巴 ”中 文 分 词 作 为 分 词组 件 库 。 可 在 http:/ 
pypi.python.org/pypi/jieba 处 下 载 ， 解 压 后 运行 pythonsetup.py install 进行 安装 。 下 面 的 代码 
演示 了 分 词组 件 Jieba 的 基本 使 用 方法 。 

4*!/usr/bin/env python 

#-*- coding: utf-8 -*- 

dtcode:myhasplG8qq.com 

412-1.py 

import sys 


sys.path.append("../") 
import jieba 


seg list - jieba.cut(" RUN QORETURGE 7 , cut, all-True) 
print "Full Mode:", "/ ".join(seg list) 4 全 模式 


seg list = jieba.cut(" 我 来 到 北京 清华 大 学 "，cut_all=False) 
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print "Default Mode:", "/ ".join(seg list) 4 默认 模式 


seg list = jieba.cut(" 他 来 到 了 网 易 杭 研 大 厦 ") 


print ", ".join(seg list) 


seg list = jieba.cut. for search(" 小 明 硕士 毕业 于 中 国 科 学 院 计 算 所 ， 后 在 日 本 京都 大 学 深造 ") d 
搜索 引擎 模式 


print ", ".join(seg list) 
演示 程序 的 分 词 效 果 如 下 : 


/ 我 / 来 到 / 北京 / 清华 / 清华 大 学 / 华 大 / 大 学 / 

Default Mode: 我 / 来 到 / 北京 / 清华 大 学 

他 ， 来 到 ， 了 ， 网 易 ， 杭 研 ， 大 厦 

WA, mE, HEX, 于 ， 中 国 ， 科 学 ， 学院， 科学院， 中 国 科 学 院 ， 计算， 计算 所 ，，， 后 ， 
E, A, R, KF, HAARAF, 深造 

中 文 分 词 有 一 个 困难 ， 就 是 会 遇 到 歧义 。 同 样 的 一 句 话 ， 可 能 有 两 种 或 者 更 多 的 切 分 方 
法 。 主 要 的 歧义 有 两 种 : 交集 型 歧义 和 组 合 型 歧义 。 例 如 : 语句 中 出 现 了 “漂亮 的 ， 因 为 “ 漂 
亮 ” 和 “ 亮 的 ”都 是 词 ， 那 么 这 个 短语 就 可 以 分 成 “漂亮 /的 ”和 “ 漂 / 亮 的 "， 这 种 称 为 交 
集 型 歧义 。 组 合 型 歧义 情况 更 复杂 ， 要 根据 整个 句 型 来 判断 ， 比 如 : 句子 “2010 年 底部 队友 
谊 篮球 赛 结束 "，“ 底 部 ”是 一 个 词 ，“ 年 底 ” 是 一 个 词 ，“ 部 队 ” 是 一 个 词 ，“ 队 友 ” 是 一 个 词 ， 
“友谊 ”是 一 个 词 ， 而 分 词 不 能 曲解 句子 含义 ， 这 样 就 产生 了 分 词 困难 。 

目前 大 部 分 分 词 软件 能 较 好 地 解决 歧义 问题 。 下 面试 着 应 用 “结巴 ”分 词 对 “2010 年 底 
部 队友 谊 篮球 赛 结束 ”分 词 。 代 码 如 下 : 

#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#12-2.py 

import jieba 

seg list = jieba.cut("2010 年 底部 队友 谊 篮球 赛 结 束 "，cut_al1=False) 

print "Default Mode:", "/ ".join(seg list) # 默认 模式 

从 下 面 的 执行 结果 来 看 ， 分 词 效 果 很 理想 。 "结巴 ”分 词 技术 比较 成 熟 ， 能 应 用 于 实际 
工程 中 。 

Default Mode:Building Trie..., from E:NWinPython-32bit-2.7.5.1Npython-2.7.5N 
libNsite-packagesVjiebaNdict.txt 

loading model from cache c:NusersVadmini-1NappdataMlocalNtempNVjieba.cache 

2010/ 年 底 / 部 队 / 友谊 / 篮球 赛 / 结束 

loading model cost  1.26200008392 seconds. 

Trie has been built succesfully. 


上 面 执行 结果 的 第 一 行 中 的 Trie 是 一 种 数据 结构 ,“ 结 巴 ” 分 词 使 用 它 构造 词 条 字典 。 
Trie 称 前 组 树 或 字典 树 ， 是 一 种 有 序 树 ， 用 于 保存 关联 数组 ， 其 中 的 键 通常 是 字符 串 。 与 二 
叉 查 找 树 不 同 ， 键 不 是 直接 保存 在 节点 中 的 ， 而 是 由 节点 在 树 中 的 位 置 决定 的 。 一 个 节点 的 
所 有 子孙 都 有 相同 的 前 缀 ， 也 就 是 这 个 节点 对 应 的 字符 串 ， 而 根 节 点 对 应 空 字符 串 。 
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12.2.2 (ŽABA 


停 用 词 又 称 垃圾 词 。 完 成 自然 语言 理解 与 文本 分 类 等 任务 时 ， 都 需要 预 处 理 文本 ， 自 动 
过 滤 掉 某 些 不 能 表征 意义 的 字 、 词 或 符号 ， 这 些 字 或 词 被 称 为 停 用 词 (Stop Words)。 进 行文 
本 分 词 后 形成 的 词 条 组 中 会 存在 很 多 停 用 词 ， 这 些 词 基本 不 具备 表示 文本 特征 的 能 力 ， 其 存 
在 会 影响 其 他 词 对 文本 特征 的 表征 能 力 ， 因 此 ， 需 要 过 滤 后 才能 形成 “干净 ”的 文本 特征 码 。 

例如 : 对 下 面 这 句 话 进行 分 词 :“ 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 
今天 去 瞧 瞧 ， 明 天 去 看 看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 
些 快 些 呢 ? ”代码 如 下 : 

$!/usr/bin/env python 

4-*- coding: utf-8 -*- 


#code:myhaspl@qaq. com 
#12=3 .py 


import jieba 

seg list = jieba.cut(" 春秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 明 天 去 看 
看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? ", cut all-False) 

print "Default Mode:", "/ ".join(seg list)$4 默认 模式 


分 词 效果 如 下 : 


春秋 时 期 / 有 / 一 个 / 农夫 / ，/ 他 / 总 是 / 
去 / 瞧 瞧 / ，/ 明天 / 去 / 看 看 / ，/ 觉得 / 禾苗 
有 / 什么 / 办 法 / 能 / 使/ 它们/ 长 得 / 高 些 / 快 


上 述 分 词 结果 中 ,“ 有 ”“ 能 ”“ 呢 ”“ 什 么 ”等 词 以 及 标点 符号 都 属于 停 用 词 的 范围 ， 应 对 
其 进行 清理 。 清 理 的 方式 是 建立 停 用 词 表 ， 扫 描 分 词 结果 ， Job MIB AR. f& 
码 如 下 : 

*!/usr/bin/env python 

#-*- coding: utf-8 -*- 


dcode:myhaspl8qq.com 
#12=3 .py 


嫌 / 田 里 / 的 / 庄稼 / 长 得 / 太 慢 / ，/ 今天 / 
7 好 像 / 总 / 没有/ 长 高 / 。/ 他 / 心 起 / : / 
些 / 呢 /?/ 


import jieba 
seg list = jieba.cut(" 春秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， ARARE, URA 
看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? "，cut_all=False) 


liststr-"/ ".join(seg list) 


print VM = 清理 前 的 词 条 --------- 
print "Default Mode:", liststr## UA 
print u"------ Nue AOL Jman 

# 停 用 词 清理 

f stop = open('stopwords.txt') 

try: 


f_stop_text = f_stop.read( ) 
f stop text-unicode(f stop text,'utf-8') 
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finally: 
f stop.close( ) 
f stop seg list-f stop text.split('WMn') 
for myword in liststr.split('/'): 
if not(myword.strip() in f stop seg list) and len(myword.strip())»1: 
print myword,',', 


从 直观 上 看 ， 清 理 停 用 词 后 留 下 的 文本 词 条 表征 文本 的 能 力 都 比较 强 。 来 比较 一 下 : 


-一 -一 一 一 清理 前 的 词 条 --------- 

Default Mode: 春秋 时 期 / 有/ 一个/ 农夫 / ，/ 他 / 总 是 / 嫌 / 田 里 / 的 / E / 长 得 / A 
慢 / ，/ 今天 / 去 / 瞧 瞧 / ，/ 明和 天/ 去/ 看 厦 / ，/ 觉得 / 禾 菌 / 好 像 / 总 / 没有 / 长 高 / 。/ 
他 7 心 想 / : / 有 / 什么 / 办 法 / 能 /使 / 它们 7/ 长 得 / 高 些 / 快 些 / 呢 / ? / 

二 清理 后 的 词 条 -N 

春秋 时 期 ， 一 个 ， 农夫 ， 总 是 ， EE, ÈR, KA, AR, 今天 RR, 明 
天 ， 看 看 ， 觉得 ， 禾苗 ， 好 像 ， 长 高 ， SUB, 办 法 ， 长 得 ， BE, WE, 


12.2.3 ”算法 实战 


1. 任务 描述 
假设 提供 了 一 个 描述 战争 的 样本 数据 ， 如 图 12-1 所 示 。 现 在 需要 对 两 个 未 知 类 型 文本 
进行 分 析 ， 它 们 的 内 容 如 图 12-2 和 图 12-3 所 示 ， 判 断 哪个 文本 是 描述 战争 类 的 。 
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图 12-1 描述 战争 的 样本 文本 图 12-2 ”描述 战争 的 未 知 类 型 文本 
2. 算法 过 程 
用 余弦 相似 度 算法 完成 上 述 文本 分 类 任务 的 过 程 如 下 : 
1) 读 取 样本 文本 。 


2) 对 文本 进行 utf-8 编码 转换 。 

3) 对 文本 进行 预 处 理 ， 完 成 中 文 分 词 ， 形 成 词 条 库 ， 并 去 除 停 用 词 。 

4) 读 取 文 本 词 条 库 ， 统 计 每 个 词 条 的 词 频 。 词 频 代 表 了 每 个 词 对 一 段 文本 的 的 重要 程 
度 ， 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 。 

5) 将 上 一 步 整理 形成 的 每 个 词 的 词 频 组 成 文本 的 词 条 词 频 特 征 码 。 
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图 12-3 ”描述 手机 的 未 知 类 型 文本 


6) 使 用 前 面 第 1 步 到 第 5 步 的 方法 分 析 待 分 类 文本 ， 生 成 待 分 类 文本 的 词 条 词 频 特 征 码 。 

7) 将 待 分 类 文本 的 词 条 词 频 特 征 码 与 样本 的 词 条 词 频 特征 码 进 行 比较 ， 应 用 余弦 相似 
度 算法 判断 待 分 类 文本 与 样本 的 相似 度 ， 取 最 相似 的 类 型 为 最 终 分 类 的 类 型 。 

下 面 用 Python 实现 上 述 算法 过 程 。 

1) 读 取 样本 文本 ， 完 成 utf-8 编码 转换 ， 然 后 进行 中 文 分 词 。 


print 

print 'loading  ...' 
print 'working', 

fl - open(sampfn) 


try: 

fl text = fil.read( ) 

fl text-unicode(fl text,'utf-8') 
finally: 


fl.close( ) 
fl seg list - jieba.cut(fl text) 


2) 对 文本 词 条 进行 预 处 理 ， 去 除 停 用 词 ， 计 算 每 个 词 条 的 词 频 。 
# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 


f stop = open('stopwords.txt') 
try: 
f stop text - f stop.read( ) 
f stop text-unicode(f stop text,'utf-8') 
finally: 
f stop.close( ) 
f stop seg list-f stop text.split('WMn') 





test words-(í) 
all words-í(] 
for myword in fl seg list: 
prist tatg 
if not(myword.strip() in f stop seg list): 
test words.setdefault (myword,0) 
all words.setdefault (myword,0) 
all words [myword]-4-1 
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3) 读 取 待 分 类 文本 ， 进 行 中 文 分 词 。 


# 第 一 个 待 测试 数据 
ftestl = open(ftestlfn) 
trys: 
ftestl text = ftestl.read( ) 
ftestl text-unicode(ftestl text,'utf-8') 
finally: 
ftestl.close( ) 
ftestl seg list = jieba.cut(ftestl text) 
# 第 二 个 待 测试 数据 
ftest2 = open(ftest2fn) 
tr 





ftest2 text = ftest2.read( ) 
ftest2 text-unicode(ftest2 text,'utf-8') 
finally: 
ftest2.close( ) 
ftest2 seg list - jieba.cut(ftest2 text) 


4) 继续 预 处 理 待 分 类 文本 ， 去 除 停 用 词 ， 并 生成 词 频 特征 码 。 


# 读 取 待 测试 文本 
mytestl words=copy .deepcopy (test_words) 
for myword in ftestl seg list: 
prige "". i 
if not(myword.strip() in f stop seg list): 
if mytestl1 words.has key (myword): 
mytestl words [myword]-^4-1 


mytest2 words-copy.deepcopy (test words) 
for myword in ftest2 seg list: 
print ".*, 
if not(myword.strip() in f stop seg list): 
if mytest2 words.has key (myword): 
mytest2 words [myword]-4-1 


5) 计算 并 输出 样本 与 待 测试 文本 的 余弦 相似 度 。 


# 计算 样本 与 待 测试 文本 的 余弦 相似 度 
sampdata=[] 
testldata=[] 
test2data=[] 
for key in all words.keys(): 
sampdata.append (all words[key]) 
testldata.append(mytestil words[key]) 
test2data.append (mytest2 words[key]) 
testlsimi-get cossimi (sampdata,testidata) 
test2simi-get cossimi (sampdata,test2data) 
print u"%s 与 样本 [Ss] 的 余弦 相似 度 :Sf"S(ftestlfn,sampfn,testisimi) 
print un"gs 与 样本 [ss] 的 余弦 相似 度 :$£"$S(ftest2fn,sampfn,test2simi) 


上 面 这 段 代码 调用 了 get cossimi 函数 ， 这 是 余弦 相似 度 计算 函数 。 该 函数 的 定义 如 下 : 
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def get cossimi(x,y): 
myx-np.array (x) 
myy-np.array(y) 
cos1-np.sum(myx*myy) 
cos21-np.sqrt (sum(myx*myx)) 
cos22-np.sqrt (sum (myy *myy ) ) 
return cosi/float(cos21*cos22) 


6) 根据 屏幕 输出 的 相似 度 ， 预 测 分 类 。 

两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 如 果 两 个 向 量 有 相 
同 的 指向 ,余弦 相似 度 的 值 为 1 ; 如 果 两 个 向 量 夹 角 为 90， 余 弦 相 似 度 的 值 则 为 0。 可 见 ， 
余弦 相似 度 越 接近 1， 两 个 文本 就 越 相 似 。 


mobile2 .txt 与 样本 [war2 .txt] 的 余弦 相似 度 :0.160806 
warl.txt 与 样本 [war2.txt] 的 余弦 相似 度 :0 .264215 


上 面 是 代码 的 执行 结果 ， 分 析 这 个 结果 可 得 出 结论 : mobile2.txt 与 war2.txt 的 余弦 相似 
度 较 小 ，warl.txt 与 war2.txt 的 余弦 相似 度 为 0.264215， 更 接近 1。 因 此 ， 应 将 warl.txt 文本 
文件 划分 为 战争 类 。 

以 下 是 全 部 源 代 码 : 


*t!/usr/bin/env python 
$-*- coding: utf-8 -*- 
$code:myhasplG8qq.com 
4$12-4.py 


import numpy as np 
import jieba 

import copy 
ftestlfn-'mobile2.txt' 
ftest2fn-'warl.txt' 
sampfn-'war2.txt' 


def get cossimi (x,y): 
myx-np.array (x) 
myy-np.array (y) 
cosi-np.sum(myx*myy) 
cos21-np.sqrt (sum(myx*myx) ) 
cos22-np.sqrt (sum (myy *myy ) ) 
return cos1/float(cos21*cos22) 

if | name za ' main 
print 
print 'loading 
print 'working', 
f1 - open(sampfn) 
try: 

fl text = fl.read( ) 
fl text-unicode(fl text,'utf-8') 
finally: 
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fl.close( ) 
fl seg list = jieba.cut(f1l text) 
# 第 一 个 待 测试 数据 


ftest1 = open(ftestlfn) 
try: 
ftestl text = ftestl.read( ) 
ftestl text-unicode(ftestl text, 'utf-8') 
finally: 
ftestl.close( ) 
ftestl seg list = jieba.cut(ftestl text) 


# 第 二 个 待 测试 数据 
ftest2 = open(ftest2fn) 
trys 


ftest2 text = ftest2.read( ) 

ftest2 text-unicode(ftest2 text,'utf-8') 
finally: 

ftest2.close( ) 
ftest2 seg list - jieba.cut(ftest2 text) 


d 读 取样 本 文本 
# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 
f stop = open('stopwords.txt') 
try: 
f stop text = f stop.read( ) 
f stop text-unicode(f stop text, 'utf-8') 
finally: 
f stop.close( ) 
f stop seg list-f stop text.split('WMn') 


test words-() 
all words-() 
for myword in fl seg list: 
print ".", 
if not(myword.strip() in f stop seg list): 
test words.setdefault (myword,0) 
all words.setdefault (myword, 0) 
all words [myword]-4-1 


# 读 取 待 测试 文本 
mytesti words-copy.deepcopy (test words) 
for myword in ftestl seg list: 
prinbk ".*. 
if not(myword.strip() in f stop seg list): 
if mytestl words.has key (myword): 
mytestl words [myword]-4-1 


mytest2 words-copy.deepcopy (test words) 
for myword in ftest2 seg list: 
print *.*, 
if not(myword.strip() in f stop seg list): 
if mytest2 words.has key (myword): 
mytest2 words [myword]-4-1 
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# 计算 样本 与 待 测试 文本 的 余弦 相似 度 
sampdata-[] 
testldata-[] 
test2data-[] 
for key in all words.keys(): 
sampdata.append(all words[key]) 
testidata.append(mytestl words[key]l) 
test2data.append(mytest2 words[key]l) 
testlsimi-get cossimi(sampdata,testidata) 
test2simi-get cossimi (sampdata,test2data) 
print u"$s 与 样本 [$s] 的 余弦 相似 度 :S£"S(Fftestilfn,sampfn,testlsimi) 
print u"$s 与 样本 [$s] 的 余弦 相似 度 :$f"S(ftest2fn,sampfn,test2simi) 


12.3 ”朴素 贝 叶 斯 分 类 


贝 叶 斯 是 一 种 基于 概率 的 学 习 算 法 ， 其 性 能 可 与 决策 树 、 神 经 网 络 等 算法 相 媲美 ， 是 文 
本 分 类 挖掘 技术 的 典型 代表 。 它 以 贝 叶 斯 定理 为 基础 ， 预 测 成 员 关 系 的 可 能 性 ， 由 于 其 具有 
坚实 的 数学 理论 基础 ， 并 且 能 综合 先 验 信息 和 数据 样本 信息 ， 因 此 成 为 当前 机 器 学 习 和 数据 
挖掘 的 研究 热点 之 一 。 朴 素 贝 叶 斯 分 类 需 是 目前 公认 的 一 种 简单 有 效 的 概率 分 类 方法 ， 这 种 
分 类 方法 具有 非常 高 的 计算 效率 ， 在 某 些 应 用 问题 上 表现 出 较 好 的 分 类 精度 ， 因 而 被 广泛 地 
应 用 于 文本 挖掘 领域 。 


12.3.1 ”算法 描述 


标准 的 朴素 贝 叶 斯 分 类 算法 的 执行 过 程 如 下 : 

1) 获取 样本 文本 ， 将 样本 人 工分 类 整理 ， 并 进行 标记 。 

2 ) 对 每 个 类 别 的 样本 文本 进行 中 文 分 词 。 

3) 去 除 样本 文本 中 垃圾 词 条 。 

4) 将 整理 后 词 条 合成 样本 文本 的 特征 组 ， 分 析 并 计算 词 条 频率 信息 。 例 如 : 假设 共 
有 3 个 类 别 的 文本 ， 词 条 i 在 类 别 A、B、C 中 出 现 的 次 数 分 别 为 COUNTI(A)、COUNT;(B)、 
COUNT(C)， 每 个 类 别 的 词 条 总 数 为 WORDCOUNT(A), WORDCOUNT(B), WORDCOUNT(C), 
那么 根据 词 每 个 类 别 的 词 条 总 数 与 词 条 在 每 个 类 别 出 现 的 次 数 就 能 计算 词 条 频率 ， 计 算 方式 是 : 
词语 在 每 个 类 别 出 现 的 次 数 除 以 该 类 别 的 总 词语 数 。 

比如 ， 某 类 别 的 词 条 总 数 是 100 个 ， 而 词 条 “冬天 ”出 现 了 5 次， 那么 “冬天 ”一 词 在 
该 文件 中 的 词 频 就 是 0.05 ( 5/100). 

5) 根据 词 条 频率 信息 ， 计 算 词 条 在 各 类 别 文本 的 先 验 概率 。 词 条 i 的 各 类 别 先 验 概率 计 
算 公式 为 : 

Pi(A)=COUNT:(A)/WORDCOUNT(A) 

P(B)-COUNT(B)/WORDCOUNT(B) 

P(C)-COUNT((C/WORDCOUNT(C) 

6) 读 取 未 知 样本 ， 进 行 中 文 分 词 ， 并 去 除 垃圾 词 ， 然 后 形成 样本 特征 组 。 
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7) 将 未 知 样本 特征 词 条 的 先 验 概率 代入 朴素 贝 叶 斯 公式 计算 后 验算 概率 ， 计 算得 到 的 
最 大 概率 的 所 属 类 别 即 为 文本 所 属 类 别 。 


12.3.2 ” 先 验 概率 计算 

同一 条 词 条 在 不 同类 型 的 文本 中 出 现 的 频率 通常 是 不 一 样 的 ， 很 多 词 条 只 会 在 某 些 类 别 
的 文本 中 出 现 ， 比 如 说 “微软 ”、“ 谷 歌 "、“ 医 保 ”"、“ 乔 布 斯 ”等 词 条 极 少 出 现在 战争 类 题材 的 
文本 中 ,而 “黑莓 ”"、“3G”、“ 手 机 ”、“ 电 信 ” 等 词 极 少 出 现在 健康 类 题材 的 文本 中 。 词 条 先 
验 概率 计算 通过 提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 它 会 以 词 条 为 
键 值 ， 生 成 词 条 先 验 概 率 哈 希 数组 (在 Python 中 称 为 字典 结构 )， 以 供 后 期 分 类 算法 使 用 。 

根据 朴素 贝 叶 斯 的 先 验 概率 计算 公式 来 看 ， 在 后 期 计算 中 ， 需 要 计算 词 条 先 验 概率 累 
乘 。 如 果 某 词 在 某 类 型 的 样本 中 从 来 没有 出 现 ， 其 概率 为 0， 这样 将 会 使 累 乘 结 果 变 为 0， 
算法 变 得 毫 无 意义 。 在 计算 先 验 概 率 后 ， 在 每 个 词 条 的 先 验 概率 基础 上 加 上 一 个 适当 的 较 小 
的 概率 值 ， 防 止 累 乘 出 现 0。 此 外 ， 某 词 在 某 类 型 的 所 有 样本 中 未 出 现 ， 不 代表 该 词 不 会 出 
现在 该 类 型 的 所 有 文本 中 ， 因 此 ， 这 个 较 小 概率 值 非常 有 必要 加 入 先 验 概率 的 计算 中 。 


12.3.3 ”最 大 后 验 概率 


对 未 知 文本 分 类 时 ,需要 计算 后 验 概率 ， 对 于 在 未 知 文本 中 出 现 的 词 条 ， 提 取 其 在 先 验 
概率 哈 希 数组 中 的 概率 值 。 然 后 分 别 计算 不 同类 型 哈 希 数组 中 出 现 的 词 条 的 先 验 概率 累 乘 ， 从 
而 得 到 未 知 文本 属于 不 同类 型 的 后 验 概率 ， 其 中 ， 最 大 概率 所 属 类 别 即 为 未 知 文本 所 属 类 别 。 





12.3.4 ”算法 实现 


这 里 分 别提 取 数 量 几乎 相同 的 新 闻 文 本 作为 样本 ， 这 些 样本 属于 汽车 、 财 经 、 健 康 、 教 
育 、 军 事 类 新 闻 ， 对 样本 进行 分 析 。 为 了 验证 效果 ， 最 后 使 用 未 在 样本 中 出 现 的 新 闻 正 文 链 
接 进 行 测试 ， 分 析 该 链接 指向 的 新 闻 所 属 类 别 。 


1. ENER 

TROU PRI CA BS JL ER 5539 8 5 | SER IR], Pre. AKER FERE ETER, y 
析 新 闻 主 页 的 新 闻 正 文 链接 ; BEXSTEBUDTIEDHEOCPEUT, 清理 HTML 标记 ; 然后 形成 文本 样本 ， 
为 提高 效率 ， 仅 在 内 存 中 形成 文本 样本 ， 不 在 本 地 硬盘 保存 ; 最 后 ， 以 内 存 数据 为 基础 ， 进 
行 下 一 步 分 析 。 相 关 代码 如 下 : 


# 读 取 网 上 新 闻 搜 索 目 录 
txt class-[] 
myclassfl = open('ClassList.txt') 
Eryt 
myclass_str = myclassfl.read() 
myclass str-unicode(myclass str, 'gbk') 
myclass text-myclass str.split() 
for ii in xrange(0,len(myclass text),2): 
print T"; 
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txt class.append((myclass text[ii],myclass, text[ii«1])) 
finally: 
myclassfl.close() 


links-[] 
# 分 类 别 仆 取 网 页 ， 生 成 词 条 数据 
for ci in xrange(0,len(txt class)): i 
print u"\n ¥ER ss XM :%s" % (txt class[ci][0],txt class[ci][1]) 
links.append([]) 
pattern = re.compile(r'(.*?)/\d+\.shtml') 
purl=txt_class[ci] [1] 
page=urllib2.urlopen (purl) 
soup = BeautifulSoup(page) 
for link in soup-find_all("a'): 
mylink-link.get('href') 
match = pattern.match(mylink) 
if match and mylink.find("hd")«0: 
basestr-"http://www.chinanews.com" 
if mylink.find("chinanews.com")«0: 
mylink-basestr«mylink 
print mylink 
links[ci].append (mylink) 


2. 先 验 概率 计算 

提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 生 成 以 词 条 为 键 值 的 先 
验 概率 字典 变量 。 此 外 ， 根 据 朴素 贝 叶 斯 的 先 验 概率 计算 公式 ， 在 后 期 计算 中 ， 需 要 计算 词 
条 先 验 概率 累 乘 ， 所 以 在 每 个 词 条 的 先 验 概率 基础 上 加 上 一 个 适当 的 较 小 的 概率 值 ， 防 止 累 
乘 出 现 0。 代 码 如 下 : 


# 词 条 在 每 个 样本 中 出 现 的 次 数 

basegl-1e-8 

wordybcount={} 

lbcount-np.zeros(len(yb txt)) 

# 整理 计算 词 条 出 现 次 数 

for i in xrange(0,len(yb txt)): 

for j in xrange(0,len(yb txt[i])): 
for k in xrange(0,len(yb txt[i][j])): 

my word-yb txt[i]l[jl[k].encode('gbk') 
wordybcount.setdefault (my word,np.repeat(0,len(yb txt)).tolist()) 
wordybcount [my word][i]-4-1 
lbcount [i]+=1 


# 计算 词 条 先 验 概率 
print u"\n 计算 词 条 概率 " 
ybgl={} 


for my word in wordybcount.keys(): 
ybgl.setdefault (my word,np.repeat(0.,len(yb txt)).tolist()) 
for ybii in xrange(0,len(yb txt)): 
ybgl[my word] [ybii]-basegl-«wordybcount [my word] [ybii]/float(lbcount [ybii]) 
prist Vo; 
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3. 后 验 概率 计算 
读 取 待 分 类 文本 的 先 验 概 率 字 典 变量 ， 提 取 每 个 词 条 的 先 验 概率 值 ， 然 后 计算 不 同类 型 
中 出 现 的 词 条 的 先 验 概率 累 乘 ， 最 后 得 到 待 分 类 文本 属于 不 同类 型 的 后 验 概率 。 代 码 如 下 : 


# 计算 待 分 类 文本 后 验 概率 
print u" 计算 待 分 类 文本 后 验 概率 " 
testgl=None 
wordgl=None 
testgl-np.repeat(1.,len(yb txt)) 
for myword in ftest seg list: 
if not(myword.strip() in f stop seg list) and len(myword.strip())»1: 
myword-myword.encode('gbk') 
for i in xrange(0,len(yb txt)): 
wordgl-ybgl.get (myword) 
if wordgl: 
if wordgl[i]«»50: 
testgl[i]*-wordgl[i] 
if np.min(testgl)«1e-50: 
testgl*-1e20 
if np.max(testgl)»1e100: 
testgl/-float(1e30) 


运行 程序 ， 读 取 网 页 http;//www.chinanews.com/edu/2013/09-17/5296319.shtml 和 http:// 
finance.chinanews.com/auto/2013/09-16/5290491.shtml， 以 这 两 个 网 页 为 测试 对 象 进行 分 类 。 
执行 结果 如 下 : 


人 天 和 ， 

http://www.chinanews.com/edu/2013/09-17/5296319.shtml 读 取 成 功 . 

计算 待 分 类 文本 后 验 概率 

http://www.chinanews.com/edu/2013/09-17/5296319.shtml 

: 教育 

计算 待 分 类 文本 后 验 概率 

http://finance.chinanews.com/auto/2013/09-16/5290491.shtml 

DAE 

从 以 上 执行 结果 看 ， 两 个 新 闻 链 接 被 成 功 地 划分 到 教育 类 新 闻 和 汽车 类 新 闻 ， 分 类 效果 
良好 。 

本 例 中 ， 样 本 数量 较 小 ， 在 实际 应 用 中 ， 每 个 类 别 应 准备 更 多 的 样本 文本 。 通 常 来 说 ， 
一 个 分 类 效果 较 好 的 朴素 贝 叶 斯 算法 ， 其 每 个 类 别 的 样本 数量 大 致 有 2000 ~ 10 000 个 。 近 
年 来 ， 基 于 朴素 贝 叶 斯 分 类 的 改进 算法 越 来 越 多 ， 最 普遍 的 是 在 算法 中 加 入 权重 的 影响 ， 针 
对 某 些 关键 词 或 中 心 词 加 上 权重 ， 这 种 方法 法 被 称 为 加 权 朴 素 贝 叶 斯 算法 。 

关于 加 权 朴 素 贝 叶 斯 算法 的 更 多 细节 ， 可 以 查看 在 《厦门 大 学 学 报 : 自然 科学 版 》2012 
年 第 4 期 上 刊登 的 伐 丽 丽 等 的 文章 《基于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 分 类 算法 》 也 可 
以 在 Google RIR ( http://scholar.google.com.hk/schhp?hl-zh-CN) 中 以 “加 权 朴 素 贝 叶 斯 
分 类 算法 ”为 关键 字 进 行 搜索 。 
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以 下 是 完整 的 Python 代码 : 


#!/usr/bin/env python 

4-*- coding: utf-8 -*- 

dcode:myhaspl8qq.com 

#12-5 .py 

#bayes 文本 分 类 

# 本 程序 仅 做 机 器 学 习 研 究 

# 本 程序 对 新 闻 爬 取 的 工作 原理 与 搜索 引擎 相同 ,通过 分 析 链 接 
# 直接 搜索 新 闻 ， 计 算 词 条 概率 


import numpy as np 

import jieba 

import urllib2 

from bs4 import BeautifulSoup 
import re 


# 读 取 网 上 新 闻 搜 索 目 录 
txt class-[] 
myclassfl - open('ClassList.txt') 
try: 
myclass str - myclassfl.read() 
myclass str-unicode (myclass str,'gbk') 
myclass text-myclass str.split() 
for ii in xrange(0,len(myclass text),2): 
prine "i"; 
txt class.append((myclass text[ii],myclass text[ii«11])) 
finally: 
myclassfl.close() 


links-[] 
# 分 类 别 扑 取 网 页 ， 生 成 词 条 数据 
for ci in xrange(0,len(txt class)): 
print u"An ER $s 类 网 页 :%s" % (txt class[ci][0],txt, class[cil[l] 
links.append([]l) 
pattern = re.compile(r'(.*?)/Nd«N.shtml') 
purl-txt class[ci][1] 
page-urllib2.urlopen(purl) 
soup = BeautifulSoup (page) 
for link in soup.find all('a'): 
mylink-link.get('href') 
match = pattern.match (mylink) 
if match and mylink.find("hd")«0: 
basestr-"http://www.chinanews.com" 
if mylink.find("chinanews.com")«0: 
mylink-basestr«mylink 
print mylink 
links[ci]l.append (mylink) 





# 提取 正文 内 容 

ybtxt-1] 

print u"Vn 提取 正文 内 容 " 

for ci in xrange(0,len(txt_class)): 
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ybtxt.append([]) 
prine ".,*", 
for mypage in links[cil: 
tryi 
my page-urllib2.urlopen (mypage) 
except: 
continue 
my soup - BeautifulSoup (my page,from encoding-"gb2312") 
my tt-my soup.get text("|", strip-True) 
my txt-my tt 
my fs-u' EX |' 
my fel-u' 【编辑 ' 
my fe2-u' 标签 ' 
zw start-my txt.find(my fs)-«8 
last txt-my txt[zw start:len(my txt)] 
zw end-last txt.find(my fel) 
if zw end«0: 
zw end-last txt.find(my fe2) 
page content-my txt[zw start:zw start«zw end] 
page content-page content.replace(r' acK(íaid:1807,format:0,mode:1,gid:1, 


serverbaseurl:"me.afp.chinanews.com/"));','').replace('|','').replace(r'í(aid:1805, for- 

mat:0,mode:1,gid:1,serverbaseurl:"me.afp.chinanews.com/"]','').replace('cK();','') 
page content-page content.replace(u'1807: 新 闻 通 发 页 XE ','').replace(u' 标 

&: ','').replace(u' 评论 ','') .replace(u' EX start 编辑 姓名 start 编辑 姓名 ','').replace(u' 


EX start','") 
if len(page content.strip())»0: 


try: 
print my soup.title.string.encode('gb2312') 
page content-my soup.title.string«page content 
except: 
prüist *....* 
finally: 
print "-done." 
ybtxt[ci].append(page content) 
# 分 析 正 文 内 容 
print u"\n 分 析 正 文 内 容 ..." 
# 停 用 词 字典 
f stop = open('stopwords.txt') 
try: 


f stop text = f stop.read( ) 

f stop text-unicode(f stop text,'utf-8') 
finally: 

f stop.close( ) 
f stop seg list-f stop text.split('n') 


# 分 类 提取 正文 词 条 
print unNn 提取 正文 词 条 . .." 
yb txt-[(] 
for ci in xrange(0,len(ybtxt)): 
yb txt.append([]) 
for cj in xrange(0,len(ybtxt[ci]l)): 
yb txt[ci].append([]) 
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my str = ybtxt[ci] [cj] 
my_txt=jieba.cut (my_str) 
for myword in my_txt: 
if not(myword.strip() in f stop seg list) and len(myword.strip())>1: 
yb_txt [ci] [cj] . append (myword) 
print *.", 


# 词 条 在 每 个 样本 中 出 现 的 次 数 

basegl-1e-10 

wordybcount-(í) 

lbcount-np.zeros(len(yb txt)) 

# 整理 计算 词 条 出 现 次 数 

for i in xrange(0,len(yb txt)): 

for j in xrange(0,len(yb txt[i])): 
for k in xrange(0,len(yb txt[il[jl)): 

my word-yb txt[i]l[jl[k].encode('gbk') 
wordybcount.setdefault (my. word,np.repeat(0,len(yb txt)).tolist()) 
wordybcount [my word][i]l-«-1 
lbcount[i]«-1 


# 计算 词 条 先 验 概率 
print u"\n 计算 词 条 概率 " 
ybgl-(]) 


for my word in wordybcount.keys(): 
ybgl.setdefault (my word,np.repeat(0.,len(yb txt)).tolist()) 
for ybii in xrange(0,len(yb txt)): 
ybgl[my word][ybii]-basegl-«wordybcount [my. word] [ybii]/float (lbcount [ybii]) 
prine '.*, 


# 读 取 待 分 类 文本 
print u"\n 读 取 待 分 类 文本 " 
ftestlinks=[] 
ftestlinks.append(r'http://www.chinanews.com/edu/2013/09-17/5296319.shtml') 
ftestlinks.append(r'http://finance.chinanews.com/auto/2013/09-16/5290491.shtml') 
for mypage in ftestlinks: 

my page-urllib2.urlopen (mypage) 

my soup - BeautifulSoup (my page,from encoding-"gb2312") 

my tt-my soup.get text("l", strip-True) 

my txt-my tt 

my fs-u' EX |' 

my fel-u' 【编辑 ' 

my fe2-u' 标签 ， 

zw Start-my txt.find(my fs)48 

last txt-my txt[zw start:len(my txt)] 

zw end-last txt.find(my fel) 

if zw end«0: 

zw end-last txt.find(my fe2) 
page content-my txt[zw start:zw start«zw end] 
page content-page content.replace(r' acK(íaid:1807,format:0,mode:1,gid:1,serv- 


erbaseurl:"me.afp.chinanews.com/"));','').replace('|','').replace(r'íaid:1805,format: 
0,mode:1,gid:1l,serverbaseurl:"me.afp.chinanews.com/")','').replace('cK();','") 
page content-page content.replace(u'1807: 新 闻 通 发 页 大 画 itt) .replace(u' 标签 : ',''). 
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replace (u' f} W% ','').replace(u' E X start f $ 4 4% start fh $ 4 4 ','').replace(u' E X 
start, 1) 

page_content=my_soup.title.string+page_content 

print u'$s ERR 3 . "mypage 


# 计算 待 分 类 文本 后 验 概率 
print u" 计算 待 分 类 文本 后 验 概率 " 
testgl=None 
wordgl=None 
testgl-np.repeat(1.,len(yb txt)) 
if len(page content.strip())>0: 
ftest seg list - jieba.cut(page content) 
for myword in ftest seg list: 
mywordesmyword.encode('gbk') 
if not(myword.strip() in f stop seg list) and len(myword.strip())»2: 
for i in xrange(0,len(yb txt)): 
wordgl-ybgl.get (myword) 
if wordgdl: 
if wordgl[i]«»0: 
testgl[i]*-wordgl[i] 
if np.min(testgl)«1e-100: 
testgl*-1e30 
if np.max(testgl)»1e100: 
testgl/-float(1e30) 


# 计算 最 大 归属 概率 
maxgl-0. 
mychoice-0 
for ti in xrange(0,len(yb txt)): 
if testgl[ti]»maxgl: 

maxgl-testgl[ti] 

mychoice-ti 
print "AnWMn$sWMn:$s"$(mypage,txt class[mychoice][0]) 


12.4 自然 语言 处 理 


自然 语言 处 理 (NLP) 是 计算 机 科学 领域 与 人 工 智能 领域 中 的 一 个 重要 方向 ， 是 一 门 融 
语言 学 、 计 算 机 科学 、 数 学 于 一 体 的 学 科 ， 是 计算 机 科学 、 人 工 智能 、 语 言 学 研究 计算 机 和 
人 类 (自然 ) 语言 之 间 的 相互 作用 的 工具 。 达 到 人 类 水 平 的 自然 语言 处 理 ， 是 一 个 人 工 智能 
的 完全 问题 ，NLP 研究 能 实现 人 与 计算 机 之 间 用 自然 语言 进行 有 效 通信 的 各 种 理论 和 方法 ， 
相当 于 解决 中 央 的 人 工 智能 问题 ， 使 计算 机 成 为 和 人 一 样 聪明 或 强大 的 人 工 智能 。 因 此 NLP 
的 未 来 也 会 密切 结合 人 工 智 能 的 发 展 而 发 展 。 


12.4.1 NLTK 简介 


NLTK 是 一 个 用 来 完成 NLP 的 Python 处 理 包 。NLTK 致力 于 打造 使 用 Python 程序 的 人 
类 语言 工作 平台 ， 它 提供 了 易于 使 用 的 接口 、 大 量 的 英文 语料库 和 词汇 资源 ， 连 同一 套 文本 
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处 理 库 的 分 类 、 标 记 、 堵 塞 、 标 注 、 句 法 分 析 、 语 义 推理 、 工 业 强 度 的 NLP 库 包 装 及 活跃 的 
论坛 ， 可 用 于 Windows, Mac OS X, Linux 等 操作 系统 。 

更 为 重要 的 是 : NLTK 是 一 个 免费 的 、 开 源 的 、 社 区 驱动 的 项 目 。 

此 外 ，NLTK 虽然 支持 unicode 编码 的 文本 (中 文 可 采用 unicode 编码 ， 通 常 为 utf-8 ), 
但 它 是 为 处 理 英 文 文本 而 生 的 ， 因 此 NLTK 对 英文 的 支持 比 中 文 更 好 。 鉴 于 上 述 原因 ， 在 实 
践 中 ， 可 结合 jieba 中 文 分 词组 件 来 完成 NLP 的 相关 工作 。 


12.4.3 NLTK 与 jieba 的 配置 


1. NLTK 的 安装 与 配置 
首先 打开 NLTK 的 官网 http://www.nltk.org/， 下 载 相关 平台 的 安装 包 并 安装 好 ， 然 后 在 
Python 交互 解释 器 下 执行 下 面 的 语句 : 


»»» import nltk 
»»» nltk.download() 


最 后 ， 将 出 现 NLIK 包 的 下 载 界 面 ， 选 择 下 载 目 录 后 ， 按 Download 键 (如 图 12-4 所 
示 )。 下 载 完 毕 后 ， 在 Python 的 安装 目录 下 新 建 nltk_data 文件 夹 ， 将 下 载 的 文件 拷 入 其 中 。 
以 WinPython 为 例 ， 笔 者 的 WinPython 安装 目录 如 下 : 


"Té NLTK Downloader 
File View Sort Help 
Collections 
Identifier Size Status 


la Al| packages 
4| all-corpora All the corpora 
| j| book Everything used in the NLTK Book 


| 
ee] 


Server Index: h 
Download Directory. [E : Anltkdownload 








图 12-4 NLTK & Fk 


E:WWinPython-32bit-2.7.10.3Wpython-2.7.10nltk. data 
将 nltk data 拷 入 其 中 后 ， 效 果 如 图 12-5 所 示 。 
上 述 步骤 全 部 完成 后 ， 可 在 Python 交互 解释 器 下 输入 如 下 代码 ， 进 行 测试 : 
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>>> import nltk 


HÆS > datal(E) > WinPython-32bit-27.10.3 > python-27.10 > nitk data — 


IB tokenizers 


^ 


修改 日 期 


2016/1/26 17:28 
2016/1/26 17:31 
2016/1/26 17:21 
2016/1/26 17:31 
2016/1/26 17:31 
2016/1/26 17:31 
2016/1/26 17:21 
2016/1/26 17:31 





图 12-5 nltk data 拷贝 


>>> sentence = """At eight o'clock on Thursday morning 


Arthur didn't feel very good.""" 


>>> tokens = nltk.word tokenize(sentence) 


>>> tokens 


['At', 'eight', 
"ht". 'feel', 'very', 


>>> 


以 空格 分 隔 的 中 文 


"og'elock*", 
*good*', 


>>> mystr-" 您 好 世界 " 


>>> tokens = nltk.word tokenize(mystr) 


>>> tokens 


['NxcANxfaNxbaNxc3', 


>>> 


2. jieba 中 文 分 词组 件 的 安装 与 配置 


'\xca\xc0\xbd\xe7'] 


'óon', 
' 01] 


"Thursday" n '"mornisg', 'lL.'. 'Archur',. digd',; 


首先 ， PAZ jieba 组 件 并 解压 缩 。 接 着 ， 打 开 控 制 台 ,输入 以 下 命令 来 查看 目录 的 结构 : 


E:\WinPython-32bit-2.7.10.3\python-2.7.10>cd E:\jieba-0.38 
E:\jieba-0.38>dir 


2016/01/27 08: 
2016/01/27 08: 
2016/01/27 08: 
:28 
2015/12/16 16: 
2016/01/27 08: 


2015/12/16 16 


27 
27 
27 


09 
27 

2 个 文件 
4 个 目录 


<DIR> 
<DIR> 
<DIR> 


<DIR> 


jieba 

2617 PKG-INFO 

2571 setup.py 

test 

5188 字 节 

69 317 844 992 可 用 字 节 


然后 ， 观 察 上 述 目录 结构 ， 可 看 到 目录 下 有 setup.py 文件 ， 执 行 这 个 文件 进行 安装 。 


E:\jieba-0.38>python setup.py install 


byte-compiling E:\WinPython-32bit-2.7.10.3\python-2.7.10\Lib\site-packages\ 
jieba\ main .py to main .pyc 


running install egg info 


Writing E: WWinPython-32bit-2.7.10.3Npython-2.7.10NLibNsite-packages V jieba-0.38- 


py2.7.egg-info 
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12.4.3 ”中 文 分 词 并 标注 词性 


NLTK 和 jieba 安装 配置 完毕 后 ， 可 测试 一 个 中 文 分 词 和 词性 标注 的 程序 (如 12-6.py 
所 示 )。 


#encoding=utf-8 

#--coding:utf-8—— 

#code by myhaspl 

# 分 词 ， 词 性 

#12-6 .py 

from _ future_ import unicode literals 


import nltk 
import sys 
sys.path.append("../") 


import jieba 
from jieba import posseg 


def cutstrpos(txt): 
# 分 词 + 词性 
cutstr = posseg.cut(txt) 
resultz"" 
for word, flag in cutstr: 
result«-word-«"/"«flag«' ' 
return result 


def cutstring(txt): 


# 分 词 
cutstr = jieba.cut(txt) 
result-" ",join(cutstr) 


return result 


# 读 取 文件 
txtfileobject = open('nltestl.txt') 
textstr-"" 
try: 

filestr - txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 


# 中 文 分 词 并 标注 词性 
posstr=cutstrpos (filestr) 
strtag-[nltk.tag.str2tuple(word) for word in posstr.split()] 
for word,tag in strtag: 
print word,*/",tag,"]|", 


# 进入 语料库 
cutstr-cutstring(filestr) 
mytext-nltk.text.Text (cutstr) 
# 在 该 语料库 中 查找 包括 ”人 " 的 语句 


print (mytext.concordance (u" À ")) 
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观察 程序 12-6.py 可 发 现 ， 它 演示 了 以 下 两 种 分 词 方 式 。 

(1) 纯 中 文 分 词 

cutstring 函数 负责 文本 的 中 文 分 词 ， 通 过 直接 调用 jieba 模块 的 cut 函数 来 完成 ， 分 割 的 
词 使 用 空格 分 离 的 方式 进行 标注 ， 代 码 片断 如 下 所 示 : 


def cutstring(txt): 


# 分 词 
cutstr = jieba.cut(txt) 
result-" ".join(cutstr) 


return result 
(2) 中 文 分 词 并 标注 词性 
cutstrpos 函数 负责 文本 的 中 文 分 词 ， 并 标注 词性 ， 通 过 直接 调用 posseg 模块 的 cut 函数 
来 完成 ， 该 cut 函数 将 返回 一 个 列表 ， 列 表 中 是 由 形 如 “( 词 ， 词 性 ”格式 的 元 组 组 成 ， 因 
此 ， 分 割 的 词 使 用 空格 分 离 的 方式 进行 标注 的 同时 ， 还 需要 使 用 “/” 分 割 符 〈 也 可 使 用 其 他 
非 空 格 的 分 割 字符 ) 将 词 与 词性 进行 分 离 。cutstrpos 函数 代码 片断 如 下 所 示 : 
def cutstrpos(txt): 
# 分 词 + 词性 
cutstr = posseg.cut(txt) 
result-"" 
for word, flag in cutstr: 
result«-word«"/"«flag«' ' 
return result 
此 外 ，Concordance 函数 可 显示 指定 的 词 在 某 语 料 库 中 的 出 现 情况 ， 并 显示 一 些 上 下 文 。 
程序 12-6.py 的 运行 效果 如 下 : 


据 / P | 国外 7s | 媒体 报道 /NI ，/X1 美 国 / NS | 科学 家 /N I GEB / T | 获得 / 
vi T/unL|2800/M | 万 美元 /M|IC/X| H& / NN | 1.8&g p(4//[M | í(, / M | ART / 
N | 2/7 X | t / UJ | 8:25 / NN | BR / NN | ，......; / X | 我 们 / R | RPS / NR | 
设计 / VN | H / V | —R / M | Æ% / v | 3X /vi./xI &€ /p| Si / v | AX 
/N| 的 / UJ | 计算 机 系统 / N | ə / X IDisplaying 11 of 11 matches: 

0 0 56 xu t 44 1.84 f£. AR TH ) m 研究 BË , 
Hj SP ucc 它 的 规 模 类 似 T A 类 基因 组 计 划 5 该 项 目 的 
领 出 -x 能 够 EX. 甚至 超越 人 类 的 计算 机 系统 


观察 上 述 运 行 效果 ， 第 一 段 是 中 文 分 词 与 词性 标注 的 结果 ， 第 二 段 是 将 文本 加 入 NLTK 
语料库 ， 并 在 语料库 中 查找 含有 “人 ”的 语句 的 结果 。 


eo NLTK 的 语料库 对 英文 的 支持 非常 好 ， 但 对 中 文 的 支持 有 限 ， 因 此 ， 如 果 使 用 NLTK 
语料库 对 中 文 进行 处 理 ， 请 慎重 使 用 ， 反 复 调试 。 


12.4.4” 词 特征 指标 分 析 
1. 词 频 统计 


程序 12-7.py 演示 了 如 何 调用 NLTK 模块 的 函数 进行 词 频 统计 。 
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d$--coding:utf-8-- 
#code by myhaspl 


# 词 频 分 析 

4812-7.py 

from _ future _ import unicode literals 
from |, future _ import division 


import nltk 


import sys 


sys.path.append("../") 


import jieba 


def cutstring(txt): 


# 分 词 
cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 


return result 


# 读 取 文件 
txtfileobject = open('nltestl.txt','r') 
try: 

filestr - txtfileobject.read( ) 
finally: 


txtfileobject.close( ) 


cutstr-cutstring(filestr) 

tokenstr-nltk.word tokenize(cutstr) 

# 全 文 总 词 数 

print u" 词 总 数 :"， 

print len(tokenstr) 

# 共 出 现 多 少 词 

print u" 共 出 现 词 数 : "， 

print len(set(tokenstr)) 

# 词汇 条 目 排序 表 

print u" 词汇 条 目 排序 表 " 

for word in sorted(set(tokenstr)): 
print word, 

print 

# 每 个 词 的 平均 使 用 次 数 

print u" 每 个 词 的 平均 使 用 次 数 : "， 

print len(tokenstr)/len(set(tokenstr)) 

# 统计 词 频 

fdistl-nltk.FregDist (tokenstr) 

for key,val in sorted(fdistl.iteritems()): 
print key,val, 

print 


BELnb di*"oiacceces 计算 机 系统 出 现 的 次 数 ............... a 
ww ai bbt. com HH DH EB 


486 sj. 第 四 部 分 “机 器 学 习 实 战 篇 


print fdistl[u' 计算 机 系统 '] 


# 统计 出 现 最 多 的 前 5 个 词 

print 

print Ns 局 Zibib3umeSÉg;s5T44..............- a 

fdistl-nltk.FreqDist (tokenstr) 

for key,val in sorted(fdistl.iteritems(),key-lambda x: (x[1],x[0]) , reverse-True) [:5]: 
print key,val 


观察 程序 12-8.py， 该 程序 依次 执行 了 以 下 操作 : 

C1) 读 取 文件 

通过 调用 Python 的 open 函数 来 打开 文件 ，read 函数 来 读 取 文件 ， 无 论 读 取 文件 成 功 与 
否 都 关闭 文件 对 象 ， 代 码 片断 如 下 所 示 : 


txtfileobject - open('nltestl.txt','r') 


try: 

filestr - txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 


(2) 中 文 分 词 

首先 ， 调 用 cutstring 函数 ， 从 而 使 用 jiaba 的 cut 函数 完成 中 文 分 词 ， 其 中 ， 每 个 词 都 用 
空格 进行 分 割 ; 然后 ， 针 对 空格 分 割 的 分 词 结 果 ， 调 用 NLTK 模块 的 word tokenize 函数 进 
ÍT NLTK 方式 的 二 次 分 词 ， 最 终生 成 NLTK 模块 要 求 的 中 文 分 词 格式 ， 即 : 以 中 文 词 为 元 素 ， 
组 成 词语 列表 。 代 码 片断 如 下 所 示 : 


cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize(cutstr) 


eo: NLTK 模块 的 分 词 是 针对 英文 分 词 而 设计 的 ， 而 英文 分 词 相对 比较 简单 ， 通常 句子 中 
的 英语 单词 是 用 空格 来 分 隔 的 ， 因 此 ， 使 用 NLTK 完成 中 文 分 词 ， 需 要 模拟 英文 分 
词 的 方式 来 进行 ， 即 : 先 使 用 空格 将 中 文 词组 分 割 形成 字符 串 后 ， 再 送 往 NLTK 234 
函数 做 进一步 处 理 。 


(3) 统计 词 出 现 的 次 数 

首先 ， 通 过 调用 len 函数 ， 对 NLTK 分 词 形成 的 词 列表 中 的 元 素 总 数 ( 即 词 的 总 数量 ) 
进行 统计 ; 然后 ， 调 用 set 函数 将 NLTK 分 词 结果 转换 成 集合 ， 统 计 集 合 中 出 现 的 词 数 。 代 
码 片 断 如 下 所 示 : 

# 全 文 总 词 数 

print u" 词 总 数 :"， 

print len(tokenstr) 

# 共 出 现 多 少 词 


print u" 共 出 现 词 数 :"， 
print len(set(tokenstr)) 
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(4) 统计 词 频 

首先 ， 调 用 NLTK 模块 的 FreqDist 函数 ， 生 成 NLTK 词 频 字 典 对 象 ， 该 字典 的 键 为 词 ， 
值 为 该 词 出 现 的 次 数 ; 然后 ， 调 用 该 词 频 对 象 的 iteritems() 返回 迭代 对 象 ， 遍 历 所 有 的 词 。 
代码 片断 如 下 所 示 : 


# 统计 词 频 

fdistl-nltk.FregDist(tokenstr) 

for key,val in sorted(fdistl.iteritems()): 
print key,val,print u" 共 出 现 词 数 :"， 


(5 ) 按 词 频 大 小 分 析 中 文 词 
首先 ， 生 成 NLTK 词 频 字 典 ; 然后 ,依据 字典 的 值 ( 即 词 频 ) 对 字典 的 键 ( 即 中 文 词语 ) 
进行 从 大 到 小 的 排序 。 下 面 的 代码 片断 演示 的 是 分 析出 现 最 多 的 前 5 个 词 : 


fdistl=nltk.FreqDist (tokenstr) 
for key,val in sorted(fdistl.iteritems(),key-lambda x: (x[1],x[0]),reverse=True)[:5]: 
print key,val 


程序 12-7.py 的 运行 效果 如 下 : 


词 总 数 : 386 

共 出 现 词 数 : 216 

词汇 条 目 排 序 表 

1.84 2800 CBS Cox David IARPA SEAS ，、。 ^ 一 半 一 款 一 点 一 项 万 美元 上 不 然 与 
东西 中 中 心 为 了 为 何 之 后 之 间 也 了 ...... 

每 个 词 的 平均 使 用 次 数 为 1.78703703704 

1.84 1 2800 1 CBS 1 Cox 1 David 1 IARPA 1 SEAS 2 - 1 、7 。 13 一 个 2 一 半 1 一 款 
2—hk1-ÓimgmzÉmilrki miss maa gmaiXxTaixXxmaizxeaichHo 
i T sS d XA Soi 





Suv 计算 机 系统 出 现 的 次 数 ............... 
3 

ge ee 统计 出 现 最 多 的 前 5 个 词 ............... 
的 25 

s $8 

s 13 

AX 8 

s 


观察 上 述 12-7.py 的 运行 结果 ， 程 序 依次 输出 了 词 总 数 、 共 出 现 词 数 、 词 汇 条 目 排序 表 、 
每 个 词 的 平均 使 用 次 数 、“ 计 算 机 系统 ”这 个 词 出 现 的 次 数 、 出 现 最 多 的 前 5 个 词 。 


2. 词 频 与 长 词 分 析 
程序 12-8.py 演示 了 如 何 调用 NLTK 模块 的 函数 进行 词 频 统计 : 


#--coding:utf-8-- 

#code by myhaspl 

#12-8.py 

from _ future_ import unicode literals 
from | future . import division 
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import nltk 
import sys 
Sys.path.append("../") 


import jieba 


def cutstring(txt): 


E 
cutstr - jieba.cut(txt) 
result-" ".join(cutstr) 


return result 


# 读 取 文 件 


txtfileobject = open('nltest2.txt','r') 


Ery 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 


cutstr-cutstring(filestr) 
tokenstr-snltk.word, tokenize(cutstr) 


fdistl-nltk.FregDist(tokenstr) 

# 只 出 现 了 1 次 的 低频 词 

print "---- 只 出 现 了 1 次 的 低频 词 ----- 

for word in fdistl.hapaxes(): 
print word, 

8 找 出 文本 中 的 长 词 

print 

print "---- 文本 中 的 长 词 ----- . 

for word in [w for w in set(tokenstr) if len(w)»3]: 
print word, 

d 找 出 文本 中 出 现 了 2 次 以 上 的 长 词 

print 

print "---- 文本 中 出 现 了 2 次 以 上 的 长 词 ----- . 

for word in [w for w in set(tokenstr) if len(w)»3 and fdistl1[w]»2]: 

print word, 


程序 12-8.py 中 有 以 下 几 个 关键 知识 点 。 
C1) 低频 词 
NLTK 将 只 出 现 过 1 次 的 词 作为 低频 词 ， 可 通过 调用 hapaxes 函数 分 析 低频 词 。 如 下 面 
的 代码 片断 所 示 : 
# 只 出 现 了 1 次 的 低频 词 
print "---- 只 出 现 了 1 次 的 低频 词 ----- ， 


for word in fdistl.hapaxes(): 
print word, 
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(2 ) 长 词 
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可 将 长 度 超过 3 的 中 文 词 视 为 长 词 。 如 下 面 的 代码 片断 所 示 ， 首 先 通过 len 函数 找到 文 
本 中 的 长 词 ， 然 后 结合 词 频 字典 的 值 来 寻找 出 现 了 2 次 以 上 的 长 词 。 


# 找 出 文本 中 的 长 词 
print 


print "---- 文本 中 的 长 词 


for word in [w for w in set(tokenstr) if len(w)»3]: 


print word, 


# 找 出 文本 中 出 现 了 2 次 以 上 的 长 词 


print 


print "---- 文本 中 出 现 了 2 次 以 上 的 长 词 


for word in [w for w in set(tokenstr) if len(w)»3 and fdistl1[w]»2]: 


print word, 


程序 12-8.py 的 输出 结果 如 下 : 


---- 只 出 现 了 1 次 的 低频 词 


无 意识 加 快 一 方面 特性 电视 观众 窗 ZE 神经 科学 尽 可 能 团队 置 于 繁重 经 干预 显然 下 丘脑 


中 带 正确 ...... 
---- 文本 中 的 长 词 ----- 


大 脑 皮 层 电视 观众 神经 科学 另 一 方面 与 此 同时 
---- 文本 中 出 现 了 2 次 以 上 的 长 词 


持续 时 间 
3. 搭配 词 分 析 


程序 12-9.py 演示 了 如 何 调用 NLTK 模块 的 函数 进行 搭配 词 分 析 : 


#--coding:utf-8-- 
#code by myhaspl 
#12-9.py 


from _ future_ import unicode literals 
from _ future__ import division 


import nltk 


import sys 
sys.path.append("../") 
import jieba 


def cutstring(txt): 


8 分 词 


cutstr = jieba.cut(txt) 
result-" ".join(cutstr) 


return result 


# 读 取 文件 
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txtfileobject = open('nltest2.txt','r') 


try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 


cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize(cutstr) 


fdistil-nltk.FreqDist (tokenstr) 


bigramcolloc-nltk.collocations.BigramCollocationFinder.from words (tokenstr) 

print "---- 出 现 最 频繁 的 前 10 个 词 ----- d 

fdistl-bigramcolloc.word fd 

for key,val in sorted(fdistl.iteritems(),key-lambda x: (x[1]1,x[0]),reverse-True)[:10]: 
print key,":",val 


print "---- 只 出 现 了 1 次 的 低频 词 ----- 本 
fdistl-bigramcolloc.word fd 
for w in fdistl.hapaxes(): 

print w.encode("utf-8"),"|", 


# 找 出 文本 中 的 搭配 词 

print 

print "---- 找 出 双 连 搭配 词 ----- 

bigramwords-nltk.bigrams (tokenstr) 

for fw,sw in set(bigramwords): 
print fw," ",sw,"|", 


print 
print "---- 双 连 搭配 词 及 词 频 ----- 
for wc in sorted(bigramcolloc.ngram fd.iteritems(),key-lambda 
x: (X[1],x[0]) ,reverse-True): 
fw, sw=w 
print fw," *'.8W,*s2".e,;*l]1", 
print 


trigramcolloc-nltk.collocations.TrigramCollocationFinder.from words (tokenstr) 


print "---- 三 连 搭配 词 -=--- s 
for fw,sw,tw in trigramcolloc.ngram fd: 

print fw.encode("utf-8")," ",sw.encode("utf-8")," ",tw.encode("utf-8"),"|", 
print 


程序 12-9.py 中 有 以 下 几 个 关键 知识 点 。 

C1) 双 连 搭配 词 

将 两 个 经 常 在 一 起 使 用 的 词语 合并 为 一 个 词组 ， 并 称 为 双 连 搭配 词 ， 比 如 :“ 通 过 ”“ 扫 
描 ” 这 两 个 词 经 常 在 一 起 使 用 ， 可 合并 为 “通过 扫描 ”的 词组 。 可 通过 调用 bigrams 函数 来 
寻找 所 有 的 双 连 搭配 词 。 代 码 片断 如 下 所 示 : 


bigramwords-nltk.bigrams (tokenstr) 
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for fw,sw in set(bigramwords): 
print fw," ",sw,"|", 


(2) 三 连 搭配 词 

将 三 个 经 常 在 一 起 使 用 的 词语 合 并 为 一 个 词组 ， 并 称 为 三 连 搭配 词 ， 比 如 :“ 发 现 ”、“ 任 
何 ”、“ 异 样 ” 这 三 个 词 经 常 在 一 起 使 用 ， 可 合并 为 “发 现任 何 异样 ”的 词组 。 可 通过 调用 模 
块 nltk.collocations.TrigramCollocationFinder 的 from words 孔 数 来 寻找 所 有 的 三 连 搭 配 词 ， 
并 统计 词 频 。 代 码 片 断 如 下 所 示 : 


trigramcolloc-nltk.collocations.TrigramCollocationFinder.from words(tokenstr) 
for fw,sw,tw in trigramcolloc.ngram fd: 

print fw.encode("utf-8")," ",sw.encode("utf-8")," ",tw.encode("utf-8"),"|", 
print 


(3) 词 频 

可 通过 调用 模块 nltk.collocations.BigramCollocationFinder 的 from words 因数 来 寻找 所 
有 的 双 连 搭配 词 ， 并 统计 词 频 。 

其 中 ， 可 通过 word_fd 方法 返回 单个 词 的 词 频 ， 代 码 片断 如 下 所 示 : 

bigramcolloc-nltk.collocations.BigramCollocationFinder.from words (tokenstr) 

print "---- 出 现 最 频繁 的 前 10 个 词 ----- H 


fdistl-bigramcolloc.word fd 


for key,val in sorted(fdistl.iteritems(),key-lambda x: (x[1],x[0]),reverse-True)[:10]: 
print key,":",val 


也 可 以 通过 iteritems 方法 返回 双 连 搭配 词 的 词 频 ， 代 码 片断 如 下 所 示 : 


bigramcolloc-nltk.collocations.BigramCollocationFinder.from words (tokenstr) 


for w,c in sorted(bigramcolloc.ngram fd.iteritems(),key-lambda x:(x[1],x[0]), 
reverse-True): 


fw, sw=w 
print fw, "^ "sw," -2»",q,' | | " 
print 


程序 12-9.py 的 运行 结果 如 下 : 
---- 出 现 最 频繁 的 前 10 个 词 ----- 


的 : 131 
se $3 64 
在 : 30 
大 脑 : 28 


---- 只 出 现 了 工 次 的 低频 词 -=--- 

无 意识 | 加 快 | 一 方面 | 特性 | 电视 观众 | 窗 | 圣 哲 | 神经 科学 | 尽 可 能 | 团队 | EFI 
KE | 经 | 于 预 | 显然 ...... 神经 学 家 | 前 I 

---- 找 出 双 连 搭配 词 ----- 

Lid rk 声音 的 | 例如 在 | 振荡 活动 | 的 区 别 | 就 像 | 控制 着 1 和 
从 来 | 如 果 WPF | 这 就 | 随机 组 合 
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---- 双 连 搭配 词 及 词 频 ----- 
cT 不 司 速度 => 2 l| 不 超过 =>2 1 F 一 个 => 2 || 一 项 ”试验 => 2 Il 一 


a a 大 脑 中 E | 生活 在 太 | 他 们 观察 一 个 | 不 清楚 这些 1 建 
在 ”过 去 | 维特 要 设计 o 8...... 


观察 上 述 运 行 结果 ， 程 序 12-9.py 依次 输出 了 出 现 最 频繁 的 前 10 个 词 、 只 出 现 了 1 次 的 


低频 词 、 双 连 搭配 词 、 双 连 搭配 词 及 词 频 、 三 连 搭配 词 。 


eo 12.4 节 中 有 些 代码 并 没有 对 标点 符号 做 任何 处 理 ， 比 如 12-9. py 没有 对 标点 进行 过 


滤 ， 读 者 可 参考 本 章 前 面 的 部 分 ， 将 标点 符号 作为 停 用 词 进 行 删除 处 理 。 但 有 一 点 必 
须要 注意 : 标点 符号 并 非 完全 没有 意义 ， 在 NLP 过 程 的 初期 并 不 一 定 要 过 滤 标 点 符 
F, 例如， 标点 符号 可 以 作为 词组 、 旬 子 甚至 口语 文本 分 割 的 标志 等 。 


4. 词 详 细 指 标 分 析 
程序 12-10.py 演示 了 如 何 调用 NLTK 模块 的 函数 进行 不 同 指标 的 词 频 分 析 、 某 词汇 指标 


分 析 、 样 本 特征 分 析 、 频 率 分 析 等 。 


#--coding:utf-8-- 
#code by myhaspl 


$12-10.py 
from | future _ import unicode literals 
from | future _ import division 


import pylab 
import nltk 


import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


def cutstring(txt): 


# 分 词 
cutstr = jieba.cut(txt) 
result-" ",join(cutstr) 


return result 


# 读 取 文 件 


txtfileobject = open('test2.txt','r') 
CES 

filestr - txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 


cutstr-cutstring(filestr) 
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tokenstr-nltk.word tokenize(cutstr) 
fdist-nltk.FreqgDist(tokenstr) 


& 以 词 长 为 元 素 ， 计 算 不 同 词 长 的 频率 
print "---- 词 频 ----- s 
fdisti-nltk.FreqDist([len(w) for w in tokenstr]) 
for w,c in fdistl.items(): 
print w,"'2»",c,"|l*, 
# 词 长 
print 
print '---- iK ----- * 
print fdistl.keys() 


# 词 

print 

print u"--- 词 频 ---" 

fdist2-nltk.FreqDist (tokenstr) 

for w,c in fdist2.items(): 
print w,'ss*',e,"T]*, 


print 

print u"--- 无 意识 出 现 的 次 数 ---" 
print fdist2[u" 无 意识 "] 

print u"--- 神经 学 家 出 现 的 次 数 ---" 
print fdist2[u" 神经 学 家 "] 


# 其 他 基本 指标 

sample-cutstring(u" 据悉 ， 这 辆 汽车 绰号 野兽 ， 野 兽 很 可 能 于 2017 年 1 月 份 美国 第 45 任 总 统 就 职 时 
使 用 。 上 自前， 野兽 的 详细 规格 都 属于 绝密 信息 ， 但 谍 照 显示 野兽 采用 了 凯迪 拉克 的 最 新 护 栅 和 前 灯 设 计 。") 

tokenstr-nltk.word tokenize(sample) 

fdist3-nltk.FreqDist (tokenstr) 

print u'--- 美国 出 现 的 次 数 ---" 

print fdist3[u" 美国 "] 

print ur--- 样本 总 数 ---" 

print fdist3.N() 

print u"--- 数值 最 大 的 样本 ---" 

print fdist3.max() 

# 频率 分 布 表 

fdist3.tabulate() 

# 频率 分 布 图 

fdist3.plot() 

# 前 10 个 高 频 词 的 累积 频率 分 布 图 


fdist3.plot(10,cumulative-True) 


程序 12-10.py 中 有 以 下 几 个 关键 知识 点 。 
1) 以 词 长 作为 指标 进行 词 频 分 析 。 通 过 len 函数 取出 词 长 ， 以 词 长 为 元 素 形 成 列表 ， 将 
列表 作为 FreqDist 函数 的 参数 ， 返 回 以 词 长 为 指标 的 词 频 字典 ， 代 码 如 下 所 示 : 


fdistl-nltk.FreqDist([len(w) for w in tokenstr]) 
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for w,c in fdistl.items(): 
print w,'z»"g, "pp, 


2) 频率 分 布 。 调 用 tabulate 函数 输出 词 频 的 分 布 情况 ， 调 用 plot 函数 绘制 词 频 分 布 图 和 
累积 频率 分 布 图 。 代 码 如 下 所 示 : 


# 频率 分 布 表 
fdist3.tabulate() 

# 频率 分 布 图 

fdist3.plot() 

# 前 10 个 高 频 词 的 累积 频率 分 布 图 


fdist3.plot(10,cumulative-True) 


3) pylab 绘图 的 中 文 乱码 处 理 。 通 过 指定 pylab 字体 的 方式 可 避免 绘图 出 现 中 文 乱码 。 
代码 如 下 所 示 : 


pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 


程序 12-10.py 执行 结果 如 下 : 


sassi M sese 

1 => 750 || 2 => 864 |] 3 => 80 1| 4 => 28 || 5 => 2 11 6 => 1 II 

---- d xac Ln 

| 9, 3S, A. 5; 6] 

= 着 = 

要 => 2 || 大 脑 皮层 => 2 11 一 切 => 3 11 无 意识 => 1 || 加 快 => 1 11 一 方面 => 1 |l 
通过 = 2 1| HUE ss l [Eb || 情绪 => 1 11 #6 => 1 || X9 => 1 11 他 们 => 2 |l 
KES => 1 || 起 => 1 || 神经 学 家 => 1 11 前 => 1 |] 能 够 => 7 || 

--- 无 意识 出 现 的 次 数 --- 

du 

--- 神经 学 家 出 现 的 次 数 --- 

1 

--- 美国 出 现 的 次 数 --- 

T 

--- 样本 总 数 --- 

49 

--- 数值 最 大 的 样本 --- 

sirang 可 能 年 dim 时 f£ 凯迪 拉克 都 


此 外 ,程序 12-10.py 绘制 了 如 图 12-6 所 示 的 词 频 率 分 布 图 。 

观察 图 12-6， 上 面 的 曲线 为 累积 频率 分 布 曲线 ， 观 察 该 曲线 ,“,”、“ 野 兽 ” 这 两 个 词 共 
使 用 了 8 次 ,“,”、“ 野 兽 、“。” 这 3 个 词 共 使 用 了 10 次 。 下 面 的 曲线 是 频率 分 布 曲 线 ， 观 察 
该 曲线 可 以 看 出 ,，“ 显 示 ” 一 词 出 现 了 1 次 ,“ 的 ”一 词 出 现 了 2 次 ,，“ 野 兽 ” 一 词 出 现 了 4 次 。 











OE 累积 频率 (Cumulative Percentage) 是 指 ， 按 某 种 标志 对 数据 进行 分 组 后 ， 分 布 在 各 
组 肉 的 数据 个 数 称 为 频数 或 次 数 ， 各 组 频数 与 全 部 频数 之 和 的 比值 称 为 频率 或 比重 。 
为 了 统计 分 析 的 需要 ， 有 时 需要 观察 某 一 数值 以 下 或 某 一 数值 以 上 的 频率 之 和 ， 叫 作 


wwaibbt.com (10 00 0 U 


第 12 章 文本 分 类 案例 $e 495 


累积 频率 ， 或 称 为 对 频率 的 累计 。 从 变量 值 小 的 一 方向 变量 值 大 的 一 方 累加 ， 称 为 向 
上 累积 ， 反 之 为 向 下 累积 。 频 率 的 最 终 累 积 值 为 100%。 设 xi<xz<…<xw 是 不 重复 的 
样本 值 ，m<n， 把 样本 值 小 于 等 于 某 个 样本 数据 ;的 频率 累加 起 来 ， 就 可 得 到 小 于 等 
于 的 累积 频率 。 





图 12-6 词 频率 分 布 图 


程序 12-11.py 演示 了 如 何 调用 NLTK 模块 的 函数 对 词 级 、 包 含 词 等 情况 进行 分 析 : 


#--coding:utf-8-- 
#code by myhaspl 
#12-11.py 


from _ future__ import unicode literals 
from _ future . import division 
import pylab 


import nltk 


import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


def cutstring(txt): 
8 分 词 


cutstr - jieba.cut(txt) 
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result-" ".join(cutstr) 
return result 


# 读 取 文件 
txtfileobject = open('nltest2.txt','r') 


try: 

filestr - txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 


cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize(cutstr) 


fdist-nltk.FreqgDist (tokenstr) 


# 以 词 频 递减 的 顺序 访问 所 有 以 " 神 "开头 的 词 
print "以 词 频 递 减 的 顺序 访问 所 有 以 " 神 "开头 的 词 " 
mywords-[w for w in fdist.keys() if w.startswith(u" Tj ")] 
for word in mywords: 
print word,"||*", 


# 以 词 频 递减 的 顺序 访问 所 有 以 “学 " 结尾 的 词 
print 
print "以 词 频 递减 的 顺序 访问 所 有 以 "学 "结尾 的 词 " 
mywords-[w for w in fdist.keys() if w.endswith(u" 学 ")] 
for word in mywords: f 
print word,"|I", 


# 以 词 频 递减 的 顺序 访问 所 有 包含 "美国 "的 搭配 词 
print 
print "以 词 频 递减 的 顺序 访问 所 有 包含 " 美国 " 的 搭配 词 " 
bigramwords-nltk.bigrams(tokenstr) 
mywords-[w for w in set(bigramwords) if u" 美国 " in w] 
for fw,sw in mywords: 

PEINE £w," '"sw,"]*, 


程序 12-11.py 中 有 以 下 几 个 关键 知识 点 。 
1) 词缀 。 通 过 endswith 函数 对 词 后缀 进行 分 析 。 代 码 如 下 所 示 : 


print "以 词 频 递减 的 顺序 访问 所 有 以 "学 “结尾 的 词 " 
mywords-[w for w in fdist.keys() if w.endswith(u" 学 ")] 
for word in mywords: 

print word;"|]|*"; 


通过 startswith 函数 对 词 的 前 缀 进行 分 析 。 代 码 如 下 所 示 : 
print "以 词 频 递减 的 顺序 访问 所 有 以 " 神 " 开 头 的 词 " 


mywords-[w for w in fdist.keys() if w.startswith(u" ff ")] 
for word in mywords: 
print word,"|l|", 
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2) 包含 词 。 通 过 in 对 包含 词 进行 分 析 。 代 码 如 下 所 示 : 


bigramwords-nltk.bigrams(tokenstr) 
mywords-[w for w in set(bigramwords) if u" XB " in w] 
for fw,sw in mywords: 

print fw," '.8w,"l*, 


程序 12-11.py 的 运行 结果 如 下 : 


以 词 频 递减 的 顺序 访问 所 有 以 " 神 "开头 的 词 

神经 科学 11 神经 节 || 神经 学 家 || 

以 词 频 阅 减 的 顺序 访问 所 有 以 "学 "结尾 的 词 

神经 科学 || 大 学 11 光学 11 社会 心理 学 11 心理 学 11 美国 杜 克 大 学 ll 
以 词 频 递减 的 顺序 访问 所 有 包含 " 美国 " 的 搭配 词 

美国 ” 得 克 萨 斯 州 | 根据 ”美国 | 


程序 12-12.py 演示 了 如 何 调用 NLTK 模块 的 函数 进行 条 件 频率 分 析 : 


d$--coding:utf-8-- 

d$code by myhaspl 

#12-12 .py 

from _ future_ import unicode literals 
from _ future . import division 

import pylab 

import nltk 


import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


def cutstring(txt): 


# 分 词 
cutstr = jieba.cut (txt) 
result-" ".join(cütstr) 


return result 


samples-[('nltestl.txt',u' £ 4X '),('nltest2.txt',u' f] dX '),('nltest3.txt',u' M 
Z'),('nltest4.txt',u' 财经 ')] 
samplewords=[] 
for (filename,categories) in samples: 
# 读 取 文 件 
txtfileobject = open(filename,'r') 
try: 
filestr - txtfileobject.read( ) 
finally: 
txtfileobject.close( ) 


cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize(cutstr) 
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mywords=[w for w in tokenstr] 
for word in mywords: 
samplewords.append((categories,word)) 

# 条 件 频 率 ， 每 个 词汇 在 不 同 分 类 中 出 现 的 频率 
print "------------------ i 
cfd-nltk.ConditionalFreqgDist (samplewords) 
fdist-cfd[u' 财经 '] 
for word in fdist: 

print word 


print "--------- 流动 性 出 现 次 数 ----------- 
print cfd[u' 财经 '] [u' 流动 性 '] 
print "—--——---—- 条 件 : X---------- " 


for cnd in cfd.conditions(): 
print cnd 
EE d 
# 频数 最 大 的 样本 
print cfd[u' M '].max() 
# 条 件 频率 分 布 
print "---------- 条 件 频 率 分 布 表 ---------- " 
cfd.tabulate(title-u' 条 件 频 率 分 布 表 ' ,conditions=[u' 科技 ',u' 财经 ']) 
cfd.plot(title-u' 条 件 频 率 分 布 图 ' ,conditions=[u' 科技 ',u' 财经 ']) 
程序 12-12.py 中 有 以 下 几 个 关键 知识 点 。 
1) 条 件 频率 字典 构造 。 可 使 用 NLTK 模块 的 ConditionalFreqDist 函数 构造 条 件 频率 字 
Jh. 条件 频率 字典 与 FreqDist 函数 构造 的 频率 字典 不 同 (如 12-11.py 所 示 )， 它 在 频率 的 基础 
上 增加 了 文本 类 别 ， 这 样 就 可 以 实现 分 类 的 频率 分 析 了 。 
此 外 ，ConditionalFreqDist 函数 的 参数 是 一 个 列表 ， 列 表 中 的 每 个 元 素 均 为 带 类 别 标志 
的 元 组 ， 格 式 为 : (类别 ,词汇 )。 代 码 如 下 所 示 : 
for word in mywords: 
samplewords.append((categories,word)) 


2) 条 件 频率 字典 访问 。 生 成 的 条 件 频 率 字 典 属 于 二 维 结构 ， 第 一 维 是 类 别 ， 第 二 维 是 
词汇 ， 下 面 的 代码 演示 了 分 析 访 问 财经 类 文本 中 的 “流动 性 ”一 词 的 频率 。 


print "--------- 流动 性 出 现 的 次 数 ----------- " 
print cfd[u' 财经 '] ru' 流动 性 '] 


3) 条 件 频率 分 布 。 使 用 tabulate 函数 绘制 条 件 频率 分 布 表 ， 使 用 plot 函数 绘制 条 件 频 率 
分 布 图 。 


cfd.tabulate(title-u' 条 件 频率 分 布 表 ',conditions=[u' 科技 ',u' 财经 ']) 
cfd. plot (title-u' 条 件 频率 分 布 图 ',conditions=[u' 科技 ',u' 财经 ']) 


程序 12-12.py 首先 输出 财经 类 的 所 有 词汇 及 财经 类 中 “流动 性 ”的 数量 ; 然后 输出 该 字 
典 内 包含 的 类 别 (条 件 )， 最 后 输出 频数 最 大 的 样本 及 频率 分 布 的 情况 。 运 行 结果 如 下 : 


体 量 
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起 
超额 完 
过 硬 
--------- 流动 性 出 现 的 次 数 -==--=-==-=-=- 
8 
---------- 条 件 : 分 类 ---------- 
科技 
财经 
— 条 件 频率 分 布 表 ---------- 
高 级 高 达 高 速 鸡尾酒 SE 黑暗 鼓励 ( )，: ;? 
TU aiat 1 1 0 i 1 1 0 6 6 122 2 2 2 
HZ aos: 0 1 2 0 0 0 2 3 3 169 4 1 0 
图 12-7 为 程序 12-12.py 输出 的 条 件 频率 分 布 图 ， 横 轴 为 词汇 ， 纵 轴 为 词汇 数量 。 
条 件 频 率 分 布 图 
180 M 





Counts 


Samples 


图 12-7 条 件 频 率 分 布 图 


12.4.5 Web 文档 分 析 

Web 文档 即 网 页 ， 它 是 构成 网 站 的 基本 元 素 ， 是 承载 各 种 网 站 应 用 的 平台 ，Web 文档 是 
一 个 包含 HTML 标签 的 纯 文 本 文件 ， 它 可 以 存放 在 世界 某 个 角落 的 某 一 台 计 算 机 中 ， 是 万 维 
网 中 的 一 “页 ”"， 其 格式 为 超 文本 标记 语言 (标准 通用 标记 语言 的 一 个 应 用 )， 通 常 Web 文档 
的 文件 扩展 名 为 .html 或 .htm)。 
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e HTML 是 用 来 描述 网 页 的 一 种 语言 ， 是 超 文本 标记 语言 (Hyper Text Markup 
Language)， 但 它 不 是 一 种 编程 语言 ， 而 是 一 种 标记 语言 (markup language)， 标 记 语 
言 是 一 套 标 记 标签 (markup tag)。 
HTML 使 用 标记 标签 来 描述 网 页 ，HTML 标记 标签 通常 被 称 为 HTML 标签 (HTML 
tag), HTML 标签 是 由 尖 括 号 包围 的 关键 词组 成 的 ， 比 如 “<html>”。HTML 标签 通 
常 是 成 对 出 现 的 ， 比 如 “<b>” 和 “</b>”， 标 签 对 中 的 第 一 个 标签 是 开始 标签 ， 第 二 
个 标签 是 结束 标签 ， 开 始 和 结束 标签 也 称 为 开放 标签 和 闭合 标签 。 比 如 下 面 这 段 网 页 : 


«html» 
«body» 


«hl»My First Heading</hl> 
«p»My first paragraph.«/p» 


«/body» 
«/html» 


上 述 网 页 的 HTML 标签 意义 为 : «html» 与 </html> 之 间 的 文本 是 描述 网 页 ; <body> 
与 </body> 之 间 的 文本 是 可 见 的 页 面 内 容 ; «hl» 与 </hl> 之 间 的 文本 在 网 页 上 被 显 
示 为 标题 ; <p> 与 </p> 之 间 的 文本 在 网 页 上 被 显示 为 段落 。 


程序 12-13.py 演示 了 如 何 调用 NLTK 模块 的 函数 对 Web 文档 进行 条 件 频率 分 析 : 


4$--coding:utf-8-- 

#code by myhaspl 

$12-13.py 

from _ future _ import unicode literals 
from _ future _ import division 

import pylab 

import nltk 

import urllib 

from bs4 import BeautifulSoup 


import sys 

Sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


def cutstring(txt): 


# 分 词 
cutstr - jieba.cut(txt) 
result-" ".join(cutstr) 


return result 


urls-[(u" fl 4 ","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"), (u" f 技 
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","http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u" ff dX ","http://tech.163. 
com/16/0203/03/BESBB73B000915BD.html"),(u" fl 4 ","http://tech.163.com/16/0203/03/ 
BESAGOPB000915BD.html"),(u" # Ë ","http://edu.163.com/16/0203/05/BESI2S7500294NE9. 
html"),(u" & È ","http://kids.163.com/16/0118/06/BDJEMJ3H00294MO6.html"), (u" EK 育 
","http://edu.163.com/16/0128/05/BEDANHBB00294NE9.html"), (u" KK (4 ","http://edu.163. 
com/16/0202/01/BEPHFQ180029411H.html")] 
samplewords-[] 
prine "fat; 
for (category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup - BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup(repr(txtsrc[0])) 
txtstr-txtsoup.get text() 
txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr-cutstring(txtstr) 
tokenstr-nltk.word tokenize(cutstr) 
for word in tokenstr: 
samplewords.append((category,word)) 
print "=", 


print "z»|" 
cfdist-nltk.ConditionalFreqDist (samplewords) 
# 知识 一 词 的 频率 
print cfdist[u' 科技 '].freq(u' 知识 ' 
samplews-[]l 
# 在 教育 分 类 中 出 现 最 多 的 20 个 词 
fd-cfdist[u' 教育 '] 
edufd20-sorted(fd.iteritems(),key-lambda x:(x[1],x[0]),reverse-True)[:20] 
for w,c in edufd20: 
print wr "= "pp; 
samplews.append(w) 
print 
# 在 科技 分 类 中 出 现 最 多 的 20 个 词 
fd-cfdist[u' 科技 '] 
techfd20-sorted(fd.iteritems(),key-lambda x: (x[1],x[0]),reverse-True)[:20] 
for w,c in techfa20: 
print w,"'-»*,ec,*]||*, 
samplews.append(w) 
print 
samplews-set (samplews) 
# 条 件 频率 分 布 图 
cfdist.tabulate(title-u' 条 件 频率 分 布 表 ' ,samples=samplews,conditions=[u' fld ',u' 教育 ']) 
cfdist.plot(title-u' 条 件 频率 分 布 图 ' ,samples=samplews,conditions=[u' 科技 ',u' 教育 ']) 


程序 12-13.py 中 有 以 下 几 个 关键 知识 点 。 
C1) 解析 网 页 


Web 文档 通常 是 HTML 格式 的 网 页 ， 处 理 此 类 文档 的 关键 在 于 提取 标签 中 的 内 容 ， 下 
面 的 代码 片段 演示 了 如 何 解析 网 页 文本 。 首 先 ， 通 过 urllib 模块 的 urlopen 打开 Web 链接 ， 
并 通过 read 函数 读 取 链接 指向 的 HTML 内 容 。 然 后 ， 通 过 BeautifulSoup 模块 对 HTML 文本 
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做 进一步 处 理 ， 本 例 中 需要 提取 新 闻 的 正文 ， 观 察 新 闻 的 网 页 文本 可 发 现 ， 其 正文 通常 处 于 
id 为 endText 的 标签 内 。 具 体 过 程 为 : 通过 调用 BeautifulSoup 模块 的 find. all 函数 找到 标签 ， 
提取 标签 中 的 内 容 ， 通 过 BeautifulSoup 模块 的 get. text 函数 去 掉 提 取 内 容 中 残余 的 HTML 
标记 ， 得 到 纯净 的 新 闻 正文 字符 串 。 最 后 ， 将 新 闻 正 文字 符 襄 进行 jieba 分 词 和 NLTK 分 词 ， 
以 便 进行 下 一 步 处 理 。 

htmlsrc-urllib.urlopen(myurl).read() 

htmlsrc-htmlsrc.decode('gbk') 

soup - BeautifulSoup(htmlsrc, 'html.parser') 

txtsrc-soup.find all(id-"endText" ) 

txtsoup-BeautifulSoup(repr(txtsrc[0])) 

txtstr-txtsoup.get text() 

txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 


cutstr-cutstring(txtstr) 
tokenstr-nltk.word tokenize(cutstr) 


在 解析 网 页 时 需要 特别 注意 字符 编码 的 问题 ， 中 文 网 页 文本 的 字符 编码 格式 不 止 UTF-8 
一 种 ， 很 多 中 文 网 页 是 GB2312 格式 的 编码 ， 通 过 HTML 的 charset 属性 可 指定 HTML 文档 
的 字符 编码 。 对 于 不 同 字 符 编码 的 文本 需要 调用 decode() 和 encode) 来 进行 解码 和 编码 。 

(2) 某 条 件 下 出 现 最 多 的 高 频 词 汇 

可 通过 分 析 某 条 件 下 出 现 频率 最 多 的 词汇 ， 近 似 得 到 该 条 件 的 常用 关键 词 。 下 面 的 代码 
片段 对 条 件 频率 字典 cfdist 中 的 教育 条 件 (对 于 本 例 而 言 ， 此 处 的 条 件 部 分 实质 上 是 类 别 ， 
“ 某 条 件 下 ”意味 着 “ 某 类 别 下 ”) 进行 排序 ， 排 序 的 依据 是 值 ( 即 词汇 频数 )， 排 序 的 函数 是 
Python 的 sorted 函数 ， 返 回 词 频 从 大 到 小 的 词汇 列表 ,列表 的 前 20 个 元 素 就 是 出 现 得 最 多 
的 高 频 词汇 。 

# 在 教育 类 web 文档 中 出 现 最 多 的 20 个 词 

fdecfdist[u' 教育 '] 

edufd20-sorted(fd.iteritems(),key-lambda x: (x[1],x[0]),reverse-True)[:20] 

for w,c in edufd20: 


print w,"se"',e,"[]"; 
samplews.append(w) 


程序 12-13.py 的 运行 结果 如 下 : 


0.00117233294256 





, => 541 || 的 => 356 || ə => 238 || Æ => 102 || « => 86 || T = 85 || € = 
77 11 学 生 => 75 || " => 67 || " => 67 || 学 校 => 53 || 毕业 生 => 51 || 就 业 => 49 || 
=> 48 || 她 =>45 || 也 => 44 || 都 => 43 || 美国 => 40 || fw => 40 || A => 34 |I 

, => 126 || 的 => 121 || ə => 59 || Æ => 38 || Æ => 19 || T =s 18 || iPhone 
=> 17 || EF =s 15 || AX =s 15 || "22 14 || * => 14 |i 份额 => 13 Il : => 12 11 X 
界 => 12 I| 上 => 12 || 一 个 => 12 |I| Windows => 12 || 机 器 人 => 11 || 、=> 11 || € => 
11 |I 
" 的 1 有 上 WX 和 学 校 : " & c 
额 在 Æ 学 生 ”毕业 生 Windows 就 业 iPhone $ 美国 人 类 也 ”机 器 人 = 
d 她 都 ET 
科技 11 59 121 18 5 12 13 9 0 12 14 14 11 13 19 
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38 0 0 12 0 I7 126 0 15 4 21 12 0 8 158 
教育 Be 3238 356 85 34 A 1 40 53 33 67 67 48 0 102 
77 75 51 0 49 0 541 40 0 44 0 17 45 43 0 


程序 12-13.py 首先 输出 “知识 ”一 词 在 科技 分 类 中 的 频率 (此 处 的 频率 不 是 频数 ， 可 理 
解 为 “知识 ”在 科技 类 别 的 文档 中 出 现 的 概率 ) 为 :0.00117233294256 ; 然后 输出 在 科技 、 教 
育 类 别 中 出 现 最 多 的 20 个 高 频 词 。 最 后 ， 输 出 高 频 词 的 条 件 频率 分 布 表 ， 并 绘制 条 件 频 率 
分 布 图 (如 图 12-8 所 示 )， 观 察 图 12-8， 较 高 的 曲线 为 教育 ， 较 低 的 曲线 为 科技 ， 可 见 这 20 
个 高 频 词 属于 教育 的 频数 比 属于 科技 的 要 多 。 


条 件 频 率 分 布 图 
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图 12-8 条 件 频率 分 布 图 


12.4.6 Web 文档 的 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 器 ( Naive Bayes Classifier, NBC) 发 源 于 古典 数学 理论 ， 有 着 坚实 的 数 
学 基础 和 稳定 的 分 类 效率 ; 同时 ，NBC 模型 所 需 估计 的 参数 很 少 ， 对 缺失 数据 不 太 敏 感 ， 算 
法 也 比较 简单 。 

NBC 模型 假设 属性 之 间 相 互 独立 ， 通 过 建立 一 个 属性 模型 ， 将 相互 不 独立 的 属性 单独 处 
理 。 例 如 对 中 文 文本 进行 分 类 的 时 候 ， 可 以 建立 一 个 字典 来 处 理 一 些 词 组 ， 把 一 个 词组 看 作 
一 个 单独 的 模式 〈 如 果 发 现 特定 的 问题 中 存在 特殊 的 模式 属性 ， 那 么 就 单独 进行 处 理 )， 这 是 
自然 语言 与 其 他 分 类 识别 问题 的 不 同 点 。 

1. 词汇 特征 项 分 析 

假设 某 样本 中 的 若干 文本 共 分 为 两 类 ,“ 中 国 ”这 一 词汇 在 两 类 样本 中 存在 的 频率 不 一 
样 ， 存 在 的 可 能 性 也 不 相同 。 程 序 12-14.py 演示 了 使 用 NLTK 分 析 词 条 归属 类 别 的 可 能 性 : 
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#--coding:utf-8-- 

#code by myhaspl 

#12-14.py 

from | future _ import unicode literals 
from | future import division 

import pylab 

import nltk 

import urllib 

from bs4 import BeautifulSoup 


import sys 

sys.path.append("../" 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


# 停 用 词 字典 
f stop = open('stopwords.txt') 
try: 


f stop text - f stop.read( ) 

f stop text-unicode(f, stop text,'utf-8') 
finally: 

f stop.close( ) 
f stop seg list-f stop text.split('WMn') 


def cutstring(txt): 
# 分 词 
cutstr - jieba.cut(txt) 
result-" ".join(cutstr) 
return result 


def wordfeatures (word): 
return ("cnword":word) 


urls-[(u"ffb 4 ","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"), (u" fb dx 
","http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u" fb $ ","http://tech.163. 
com/16/0203/03/BESBB73B000915BD.html"), (u" fl dX ","http://tech.163.com/16/0203/03/ 
BESAGOPB000915BD.html"),(u" # Ë ","http://edu.163.com/16/0203/05/BESI287500294NE9. 
html"),(u"AX Td ","http://kids.163.com/16/0118/06/BDJEMJ3H00294MO6.html"),(u" d Ë 
","http://edu.163.com/16/0128/05/BEDANHBB00294NE9.html"), (u" Á Ë ","http://edu.163. 
com/16/0202/01/BEPHFQ180029411H.html")] 

samplewords-[] 


print “pem, 
for (category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup - BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup(repr(txtsrc[0])) 
txtstr-txtsoup.get text() 
txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
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cutstr-cutstring(txtstr) 
tokenstr-nltk.word tokenize(cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f stop seg list) and len(myword.strip())»1: 
samplewords.append((wordfeatures (myword),category)) 
PEINE t="; 


# 测试 数据 
testurl-"http://edu.163.com/16/0204/05/BEV40UHF00294NE9 .html" 
testwords-[] 
htmlsrc-urllib.urlopen(testurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup(repr(txtsrc[0])) 
txtstr-txtsoup.get text() 
txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr-cutstring(txtstr) 
tokenstr-nltk.word tokenize(cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f stop seg list) and len(myword.strip())»1: 
testwords.append((wordfeatures (myword)," 教育 ")) 
print "=t, 


printe "=>" 


classifier-nltk.NaiveBayesClassifier.train(samplewords) 
# 大 学 所 属 的 类 别 

print u"'---- 大 学 所 属 的 类 别 ----- 

print classifier.classify(("cnword":u" 大 学 "}) 


# 大 脑 所 属 的 类 别 


print u"---- 大 脑 所 属 的 类 别 ----- 
print classifier.classify(("cnword":u" 大 脑 "}) 
# 测试 数据 分 类 的 准确 率 


print nltk.classify.accuracy (classifier,testwords) 


# 特征 分 类 最 有 效 的 10 个 词 

: for wf£,mostword in classifier.most informative features(10): 
print mostword, 

print 


* 为 显示 utf-8, ff show most informative features 代码 进行 修改 

Kclassifier.show most informative features(10) 也 可 直接 调用 这 和 名， 但 是 utE-8 显示 有 问题 
cpdist = classifier. feature probdist 

print('Most Informative Features') 


for (fname, fval) in classifier.most informative features(10): 
def labelprob(1): 


return cpdist[1, fname].prob(fval) 


labels = sorted([l for 1 in classifier. labels 
if fval in cpdist[1, fname].samples()], 
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key=labelprob) 
if len(labels) == 1: 
continue 
10 = labels[0] 
11 = labels[-1] 
if cpdist[10, fname].prob(fval) -- 


ratio - 'INF' 
else: 
ratio = '$8.1f' % (cpdist[11, fname].prob(fval) / 
cpdist[10, fname].prob(fval)) 
print fname-"-"-«fval, 
print(('$6s : $-6s = $s : 1.0' € (("$s" $ 11) [:6], ("$s" $ 10) [:6], ratio))) 


程序 12-14.py 中 有 以 下 几 个 关键 知识 点 。 

1) 去 除 Web 文档 中 的 停 用 词 。 在 处 理 自然 语言 数据 (或 文本 ) 之 前 或 之 后 有 时 需要 自 
动 过 滤 掉 某 些 字 或 词 ， 这 些 字 或 词 称 为 Stop Words ( 停 用 词 )， 停 用 词 主要 包括 英文 字符 、 数 
字 、 数 学 字符 、 标 点 符号 及 使 用 频率 特 高 的 单 汉字 等 。 

下 面 的 代码 片段 通过 word_tokenize 完成 NLTK 分 词 后 ， 遍 历 分 词 结果 ， 如 果 含有 停 用 
词 或 是 单 汉 字 的 ， 则 作为 停 用 词 ， 不 将 其 加 入 最 终 分 词 特征 列表 (该 列表 是 进一步 分 析 文 本 
特征 的 依据 ) 中 。 

tokenstr-nltk. word tokenize (cutstr) 

for myword in tokenstr: 

if not(myword.strip() in f stop seg list) and len(myword.strip())»51: 


samplewords.append((wordfeatures (myword),category)) 
print "=", 


2 ) 构造 朴素 贝 叶 斯 分 类 器 。 通 过 nltk.NaiveBayesClassifier 的 train 方法 ， 将 文本 特征 作 
为 参数 ， 构 造 朴 素 贝 叶 斯 分 类 器 。 代 码 如 下 所 示 : 


classifier-nltk.NaiveBayesClassifier.train(samplewords) 

3) 某 词汇 属于 某 类 别 的 可 能 性 。 下 面 的 代码 演示 了 如 何 计算 “大 脑 ”一 词 最 可 能 归属 
的 文本 类 别 : 

print u"---- 大 脑 所 属 的 类 别 ----- " 


print classifier.classify(("cnword":u" 大 脑 "}) 
4) 对 分 类 最 有 贡献 的 词汇 。most informative features 函数 将 返回 对 分 类 最 有 效 的 词汇 ， 
参数 是 词汇 数量 。 代 码 如 下 所 示 : 


for wf,mostword in classifier.most informative features(10): 
print mostword, 


此 外 ， 还 可 调用 show most informative features 函数 输出 对 分 类 有 明显 作用 的 词汇 具体 
信息 。 
5 ) 测试 分 类 的 准确 率 。 
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# 测试 数据 分 类 的 准确 率 


print nltk.classify.accuracy(classifier,testwords) 
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6) 词汇 特征 分 析 。NLTK 的 朴素 贝 叶 斯 分 类 器 对 特征 项 的 要 求 是 : 每 个 特征 项 (在 本 例 
中 为 每 个 词汇 ) 为 一 个 字典 ， 字 典 元 素 的 键 是 特征 名 称 ， 字 典 元 素 的 值 是 特征 值 ， 某 特征 项 
(在 本 例 中 为 某 词汇 ) 的 所 有 特征 组 成 了 该 特征 项 (在 本 例 中 为 该 词汇 ) 的 特征 字典 。 代 码 如 


下 所 示 : 


def wordfeatures (word): 
return í"cnword":word) 


程序 12-14.py 的 运行 结果 如 下 : 


教育 
---- 大 脑 所 属 的 类 别 ----- 
科技 


0.977346278317 
世界 公司 事先 游戏 之 后 领域 采用 学 科 里 面 技术 


Most Informative Features 


cnword= 世界 科技 : 教育 = 20.6 : 1.0 
cnword= 公司 科技 : 教育 = 12.4 s 3.8 
cnword- 事先 科技 : 教育 = 5.8 s 1.0 
cnword- 游戏 科技 : 教育 = 5.8 : 1.0 
cnword- 之 后 科技 : 教育 & à.5 è 1.0 
cnword- 领域 科技 : 教育 = 站 .可 s 1.0 
cnword- 采用 科技 : 教育 = 4.5 : 1.0 
cnword- 学 科 科技 : 教育 = &.l s 1.0 
cnword- 里 面 科技 : 教育 = 4,1 s 1.0 
cnword- 技术 科技 : 教育 = 4.3 2 Eo 


观察 上 述 的 运行 结果 ， 程 序 12-14.py 首先 分 析 “ 大 学 ”最 有 可 能 属于 教育 类 别 ， 而 “大 
脑 ” 最 有 可 能 属于 科技 类 别 ; 然后 输出 数据 分 类 的 准确 率 为 0.977346278317， 并 输出 分 类 最 


有 效 的 10 个 词汇 ; 最 后 反映 词汇 在 不 同类 别 中 出 现 的 比例 ， 


比如 ， 观 察 输 出 结果 的 最 后 一 


行 ,“ 技 术 ” 一 词 在 科技 中 出 现 的 频率 是 在 教育 中 出 现 频率 的 4.1 倍 。 





程序 12-15.py 演示 了 如 何 使 用 NLTK 对 不 同 词 及 词 长 归属 类 别 可 能 性 的 分 析 ; 


$--coding:utf-8-- 

*code by myhaspl 

4112-15.py 

from | future _ import unicode literals 
from _ future _ import division 

import pylab 

import nltk 

import urllib 

from bs4 import BeautifulSoup 

import random 
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import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


# 停 用 词 字 典 


f stop = open('stopwords.txt') 


try: 


f stop text - f stop.read( ) 
f stop text-unicode(f stop text,'utf-8') 


finally: 


f stop.close( ) 


f stop seg list-f stop text.split('Wn') 


def 


cutstring(txt): 

# 分 词 

cutstr = jieba-eut (txt) 
result-" ".join(cutstr) 
return result 


def wordfeatures (word): 


return í"cnword":word,"wcnlen":len(word) } 


urls-[(u" fb 4 ","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"), (u" f 技 
","http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u" f dX ","http:/ltech.163. 
com/16/0203/03/BESBB73B000915BD.html"), (u" f dX ","http://tech.163.com/16/0203/03/ 
BESAGOPB000915BD.html"),(u" 4X JH ","http://edu.163.com/16/0203/05/BESI287500294NE9. 
html"),(u"AX d ","http://kids.163.com/16/0118/06/BDJEMJ3H00294MO6.html"),(u" 4 Ë 
","http://edu.163.com/16/0128/05/BEDANHBB00294NE9.html"), (u" Z& 4 ","http://ledu.163. 
com/16/0202/01/BEPHFQ180029411H.html")] 

samplewords-[] 


print *Ise*, 


for 


(category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup - BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup(repr(txtsrc[01)) 
txtstr-txtsoup.get text() 
txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr-cutstring(txtstr) 
tokenstr-nltk.word tokenize(cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f stop seg list) and len(myword.strip())»1: 
samplewords.append((myword,category)) 
print "e", 


$iÉibapply features 方法 返回 链表 ， 不 在 内 存 中 存储 所 有 的 特征 集 ， 以 节约 内 存 


samplelen-len(samplewords) 
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trlen-int(samplelen*2/3) # 训 练 样本 的 长 度 

random.shuffle(samplewords) 

traintxt-nltk.classify.apply features (wordfeatures,samplewords[:trlen]) 
testtxt-nltk.classify.apply features (wordfeatures,samplewords [trlen:]) 
print "-»|" 


classifier-nltk.NaiveBayesClassifier.train(traintxt) 

# 大 学 所 属 的 类 别 

print u"---- 大 学 所 属 的 类 别 ----- £ 

print classifier.classify ({"cnword":u" 大 学 ", "wcnlen":len(u" X f "))) 
# 大 脑 所 属 的 类 别 

print u"---- 大 脑 所 属 的 类 别 ----- 

print classifier.classify(("cnword":u" 大 脑 ","wcnlen":len(u" 大 脑 ")}) 
# 测试 数据 分 类 的 准确 率 


print nltk.classify.accuracy (classifier,testtxt) 


# 特征 分 类 最 有 效 的 10 个 特征 

for wf,mostword in classifier.most informative features(10): 
print mostword, 

print 


t 为 显示 utf-8, ff show most informative features 代码 进行 修改 


dclassifier.show most informative features(10) sup Edi, Æ utf-8 显示 有 问题 


cpdist - classifier. feature probdist 
print('Most Informative Features') 


for (fname, fval) in classifier.most informative features(10): 
def labelprob(1): 
return cpdist[1, fname].prob(fval) 


labels = sorted([l for 1 in classifier. labels 
if fval in cpdist[l, fname].samples()], 
key-labelprob) 


if len(labels) -- 1: 
continue 
10 = labels[0] 
11 = labels[-1] 
if cpdist[10, fname].prob(fval) -- 0: 
ratio - 'INF' 
else: 
ratio = '$8.1f' $$ (cpdist[11, fname]l.prob(fval)/ 


cpdist[10, fname].prob(fval)) 
print fname, 
print St; 
print fval, 


print(('$6s : €$£-6s = $s : 1.0" € (("$s" $ 11)[:6], ("$s" $ 10)[:6], ratio)) 


程序 12-15.py 中 有 以 下 几 个 关键 知识 点 。 
1) 词汇 特征 分 析 。 以 某 词汇 的 内 容 和 长 度 作 为 该 词汇 的 特征 项 ， 代 码 如 下 所 示 : 


def wordfeatures (word): 
return ("cnword":word,"wcnlen":len(word) ) 
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2) 不 在 内 存 中 存储 文本 的 所 有 特征 项 集 ， 以 节约 内 存 。 通 过 apply features 方法 ,创建 
文本 特征 项 集 的 列表 ， 可 不 在 内 存 中 存储 所 有 特征 项 集 ， 当 特征 项 数量 特别 大 时 ， 这 种 方法 
能 节约 内 存 。 代 码 如 下 所 示 : 


traintxt-nltk.classify.apply features(wordfeatures,samplewords[:trlen]) 
testtxt-nltk.classify.apply features(wordfeatures,samplewords[trlen:]) 


程序 12-15.py 的 运行 结果 如 下 : 


教育 

---- 大 脑 所 属 的 类 别 ----- 

科技 

0.863354037267 

8 世界 公司 7 信息 领域 6 学 科 里 面 事先 


Most Informative Features 


wcnlen = 8 科技 : 教育 = pe s 1:0 
cnword = 世界 科技 : 教育 = 11.8 s 1.0 
cnword = 公司 科技 : 教育 = 10.2 : 1.0 
wcnlen - 7 科技 : 教育 = 5.6 s L0 
cnword = 信息 科技 : 教育 = 5.5 v 1.0 
cnword = 领域 科技 : 教育 = 5.5 : 1.0 
wcnlen - 6 科技 : 教育 二 4.B v 1.0 
cnword = 学 科 科技 : 教育 = 3.9 : 1.0 
cnword = 里 面 科技 : 教育 = 3.9 : 1.0 
cnword = 事先 科技 : 教育 B 3.9 & 1.0 


观察 上 述 运行 结果 ， 程 序 12-15.py 首先 分 析 “ 大 学 ”最 有 可 能 属于 教育 类 别 ， 而 “大 脑 ” 
最 有 可 能 属于 科技 类 别 ; 然后 输出 数据 分 类 准确 率 为 0.863354037267， 并 输出 分 类 最 有 效 的 
10 个 特征 ， 用 前 3 个 特征 8、 “世界 “公司 ”为 例 进行 剖析 可 以 看 出 ， 长 度 为 8、“ 世 界 ”、 
“公司 ”是 对 分 类 最 有 效 的 前 3 个 特征 ; 最 后 反映 特征 在 不 同类 别 中 出 现 的 比例 ， 比 如 ， 观 
察 输 出 结果 的 最 后 一 行 ,“ 事 先 ” 在 科技 类 别 中 出 现 的 频率 是 教育 类 中 出 现 频率 的 3.9 fir. 

程序 12-16.py 演示 了 如 何 使 用 NLTK 的 不 同 词 归属 类 别 可 能 性 的 分 析 ， 与 12-14.py 的 
不 同 之 处 在 于 : 特征 字典 的 值 为 该 词汇 是 否 出 现 。 

#--coding:utf-8-- 

#code by myhaspl 

#12-16.py 

from _ future_ import unicode literals 

from _ future _ import division 

import pylab 

import nltk 

import urllib 


from bs4 import BeautifulSoup 
import random 


import sys 
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sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


def cutstring(txt): 


* 分 词 
cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 


return result 


def txtfeatures(allwords,tokenw,stopseg): 
features-í() 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())»1: 
features["cnword-"«myword]- (myword in set(tokenw)) 
print "="; 
return features 


# 停 用 词 字典 
f stop = open('stopwords.txt') 
try: 


f stop text - f stop.read( ) 

f stop text-unicode(f stop text,'utf-8') 
finally: 

f stop.close( ) 
f stop seg list-f stop text.split('WMn') 


urls=[(u" 科 4 ","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"),(u" fF 技 
","http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u" # dX ","http://tech.163. 
com/16/0203/03/BESBB73B000915BD.html"), (u" fL 4 ","http://tech.163.com/16/0203/03/ 
BESAGOPB000915BD.html"),(u" & d ","http://edu.163.com/16/0203/05/BESI287500294NE9. 
html"),(u"AX Jd ","http://kids.163.com/16/0118/06/BDJEMJ3H00294MO6.html"), (u" d 育 
","http://edu.163.com/16/0128/05/BEDANHBB00294NE9.html"), (u" K 4 ","http://edu.163. 
com/16/0202/01/BEPHFQ180029411H.html")] 

samplewords-([] 

allw-[] 

tokendocstr-[] 

print ~="; 

for (category,myurl) in urls: 

htmlsrc-urllib.urlopen(myurl).read() 

htmlsrc-htmlsrc.decode('gbk') 

soup - BeautifulSoup(htmlsrc, 'html.parser') 

txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup(repr(txtsrc[0])) 

txtstr-txtsoup.get text() 
txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr-cutstring(txtstr) 

tokendocstr.append(nltk.word tokenize(cutstr)) 
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for docstr in tokendocstr: 
for w in docstr: 
allw.append(w) 
allw-set (allw) 


samplefeatures-[] 

i-0 

for docstr in tokendocstr: 
docfeature-txtfeatures(allw,docstr,f stop seg list) 
samplefeatures.append((docfeature,urls[i][0])) 
i-i-41 


samplelen-len(samplefeatures) 
trlen-int (samplelen*2/3)s9 训练 样 本 长 度 
random.shuffle(samplefeatures) 


traintxt-samplefeatures[:trlen] 
testtxt-samplefeatures[trlen:] 
print *'s»[* 


classifier-nltk.NaiveBayesClassifier.train(traintxt) 
# 测试 数据 分 类 准确 率 

print nltk.classify.accuracy(classifier,testtxt) 
classifier.show most informative features(15) 


观察 程序 12-16.py， 对 文本 进行 特征 分 析 时 ， 其 文本 特征 项 由 非 停 用 词 特征 组 成 ， 每 个 
非 停 用 词 的 特征 计算 方式 为 : 特征 名 称 为 非 停 用 词 内 容 ， 特 征 值 为 True (该 非 停 用 词 在 该 文 
本 中 出 现 ) 或 False (该 非 停 用 词 未 在 该 文本 中 出 现 )。 代 码 如 下 所 示 : 


def txtfeatures (allwords,tokenw,stopseg): 
features-í() 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())»1: 
features["cnword-"«myword]-(myword in set (tokenw)) 
print "e", 
return features 


程序 12-16.py 首先 输出 分 类 准确 率 为 0.666666666667 ; 然后 输出 对 分 类 最 有 效 的 前 15 
个 特征 。 程 序 12-16.py 的 运行 结果 如 下 : 
weweaaeae 二 = =>] 


0.666666666667 
Most Informative Features 


cnword- 国外 = False 科技 : 教育 = 2.2.3 Tab 
cnword- 一 年 = False 科技 : 教育 - 2,2 s 1.0 
cnword- 厕所 = False 科技 : 教育 = 2,2 € 1.0 
cnword- 确实 = False 科技 : 教育 = 2 


2. 网 页 分 类 
程序 12-17.py 演示 了 如 何 使 用 NLTK 对 未 知 网 页 进行 朴素 贝 叶 斯 分 类 : 
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#--coding:utf-8-- 

#code by myhaspl 

#12-17.py 

from | future . import unicode literals 
from | future . import division 

import pylab 

import nltk 

import urllib 

from bs4 import BeautifulSoup 


import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 


def cutstring(txt): 


8 28 
cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 


return result 


def txtfeatures(allwords,tokenw,stopseg): 
features-í) 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())»1: 
features["cnword-"«myword]- (myword in set(tokenw)) 
return features 


# 停 用 词 字典 
f stop = open('stopwords.txt') 
try: 


f stop text - f stop.read( ) 

f stop text-unicode(f stop text,'utf-8') 
finally: 

f stop.close( ) 
f stop seg list-f stop text.split('WMn') 


urls-[(u" fF 4€ ","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"),(u" KR d 


", "http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u" £ d","http://tech.163. 
com/16/0203/03/BESBB73B000915BD.html"), (u" KR. $ ","http://tech.163.com/16/0203/03/ 
BESAGOPB000915BD.html"),(u" 4 T£ ","http://edu.163.com/16/0203/05/BESI287500294NE9. 
html"), (u"# È "',"http://kids.163.com/16/0118/06/BDJEMJ3H00294MO6.html"), (u" 4 È 
", "http://edu.163.com/16/0128/05/BEDANHBB00294NE9.html"),(u" 教 4$ ","http://ledu.163. 
com/16/0202/01/BEPHFQ180029411H.html")] 


samplewords-[] 
allw-[] 
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tokendocstr-[] 

print "I=", 

for (category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup(repr(txtsrc[0]1)) 
txtstr-txtsoup.get text() 
txtstr-txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr-cutstring(txtstr) 
tokendocstr.append(nltk.word tokenize(cutstr)) 
print "z'"", 


for docstr in tokendocstr: 
for w in docstr: 
allw.append(w) 
allw-set (allw) 


samplefeatures-[] 

i-D 

for docstr in tokendocstr: 
docfeature-txtfeatures(allw,docstr,f stop seg list) 
samplefeatures.append((docfeature,urls[i][0])) 
izil 


traintxt=samplefeatures 
print "z»|" 
classifier-nltk.NaiveBayesClassifier.train(traintxt) 


# 新 的 网 页 
testmyurl-"http://tech.163.com/16/0207/09/BF7AR5D4000915BD.html" 
testhtmlsrc-urllib.urlopen(testmyurl).read() 
testhtmlsrc-testhtmlsrc.decode('gbk') 

soup - BeautifulSoup(testhtmlsrc, 'html.parser') 
testtxtsrc-soup.find all(id-"endText" ) 
testtxtsoup-BeautifulSoup(repr(testtxtsrc[0])) 
testtxtstr-testtxtsoup.get text() 
testtxtstr-testtxtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
testcutstr-cutstring(testtxtstr) 

testtokendocstr-nltk.word tokenize(testcutstr) 
testdocfeature-txtfeatures(allw,testtokendocstr,f stop seg list) 


# 测试 数据 分 类 
print classifier.classify (testdocfeature) 


程序 12-17.py 中 有 以 下 关键 知识 点 。 
1) 文本 特征 分 析 。 对 文本 特征 的 分 析 首 先 从 词汇 特征 入 手 ， 在 去 除非 停 用 词 后 ， 余 下 
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的 词汇 对 文本 特征 的 提取 均 有 意义 ,每 个 非 停 用 词 的 特征 名 称 均 为 非 停 用 词 的 内 容 ， 特 征 值 
为 True (该 非 停 用 词 在 该 文本 中 出 现 ) 或 False (该 非 停 用 词 未 在 该 文本 中 出 现 )。 


def txtfeatures(allwords,tokenw,stopseg): 
features={} 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())»1: 
features["cnword-"«myword]-(myword in set(tokenw)) 
return features 


2) 分 类 结果 。 调 用 分 类 器 对 象 classifier 的 classify 方法 对 未 知 样本 数据 进行 分 类 : 


print classifier.classify(testdocfeature) 


程序 12-17.py 的 运行 结果 如 下 : 


科技 
观察 12-17.py 的 运行 结果 可 以 得 知 ， 链 接 http://tech.163.com/16/0207/09/BF7AR5D400091 


5BD.html 指向 的 Web 文档 为 科技 类 别 ， 在 浏览 器 中 打开 该 页 面 ， 标 题 为 “伦敦 希望 谷 
歌 能 将 无 人 驾驶 汽车 测试 带 进 英国 "， 该 文档 确实 属于 科技 类 别 ， 分 类 准确 无 误 。 


12.4.7 “语法 结构 分 析 
语法 是 语言 学 的 一 个 分 支 ， 研 究 按 确定 用 法 来 运用 的 词类 、 词 的 曲折 变化 或 表示 相互 关 
系 的 其 他 手段 及 词 在 句子 中 的 功能 和 关系 。 包 含 词 的 构 词 、 构 形 的 规则 和 组 词 成 句 的 规则 。 
程序 12-18.py 演示 了 如 何 使 用 NLTK 识别 名 词 短 语 及 语法 树 分 析 : 


#--coding:utf-8-- 
#code by myhaspl 


#12-18.py 
from _ future _ import unicode literals 
from _ future _ import division 


import pylab 
import nltk 


import sys 
sys.path.append("../" 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 


from jieba import posseg 


def cutstrpos(txt): 
# 分 词 + 词性 
cutstr - posseg.cut(txt) 
result-"" 
for word, flag in cutstr: 
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result4-word«"/"«flag-«' ' 
return result 


sentencestr-[] 

txtstrz""* 

据 美 国 华盛顿 自由 灯塔 网 站 2 H 17 日 报道 ， 政 府 问 责 局 16 日 发 布 的 这 份 报告 称 ， 美国 导 弹 防御 局 继续 将 大 
笔 资金 用 于 未 被 证 明 能 够 应 对 来 自 伊朗 或 朝鲜 的 弹道 导弹 袭击 的 技术 。 


# 生成 nltk 格式 的 词性 单词 集 
posstr-cutstrpos(txtstr) 
strtag-[nltk.tag.str2tuple(word) for word in posstr.split()] 


# 句子 分 割 
sentstr-[] 
for wtag in strtag: 
if wEas[0].strip() in [*, Srne fotp tary gta "jg 
sentencestr.append(sentstr) 
sentstr-[] 
else : 
if wtag[1]Iz"X": 
sentstr.append((wtag[0].strip(),wtag[1])) 


# 输出 分 割 后 的 句子 
for wordstr in sentencestr: 
print 
for word in wordstr: 
print word[0],"/",word[1], 


# 名 词 短语 识别 

grammar-r""" 
NP:((«A»|«R»|«MQ») *<N>+<K>*} 
NP:((«A»|«R»|«MQ») *«NS»4«K»*) 
NP: {<M>+} 


cp-nltk.RegexpParser (grammar) 
resultl-cp.parse(sentencestr[0]) 
resultl.draw() 


result2-cp.parse(sentencestr[1]) 
result2.draw() 


程序 12-18.py 中 有 以 下 关键 知识 点 。 

C1) 生成 NLTK 格式 的 词性 单词 集 

首先 ， 通 过 jieba 中 文 分 词组 件 分 词 并 标注 词性 ， 分 词 结果 为 形 如 “词汇 1/ 词性 1 词汇 
2/ 词性 2.../... 词汇 n/ 词性 上 ”的 字符 串 ， 每 个 词汇 之 间 用 空格 进行 分 隔 ; 然后 ， 调 用 nltk.tag 
的 str2tuple 函数 生成 NLTK 格式 的 词性 单词 集 。 


posstr-cutstrpos (txtstr) 
strtag-[nltk.tag.str2tuple(word) for word in posstr.split()] 
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(2) 句子 分 割 并 去 除 标点 
在 文本 字符 串 中 查找 “,”、“。” 等 常用 的 中 文 标点 符号 ， 将 文本 分 割 成 句子 ; 此 外 ， 将 
WHEE “X” I (这 个 词性 类 别 通 常 为 标点 ) 的 词 删除 。 


for wtag in strtag: 
j£ wE£ag[0].okxip() im D", Sen v,mf s, «Tomo. ms 
sentencestr.append(sentstr) 
sentstr-[] 
else : 
if wtaág[1]!-2"X": 
sentstr.append((wtag[0].strip(),wtag[11)) 


eo jieba 中 文 分 词 采 用 的 是 和 ictclas 兼容 的 标记 法 。 某 词 的 词性 “X” 表 示 它 是 非 语素 
字 ， 非 语素 字 只 是 一 个 符号 和 未 知 数 。 


(3) 名 词 短语 识别 

使 用 NLTK 识别 语法 结构 ， 最 好 的 方式 是 指定 某 语法 结构 的 正则 表达 式 。 为 简单 起 见 ， 
12-18.py 根据 本 例 的 实际 情况 ,将 常用 的 名 词 短 语 格式 定义 为 “形容 词 /代词 /数量 词 + 名 
词 (包括 地 名 ) 若干 + 后缀 ”或 “日 期 ”的 格式 。 

grammar-r""" 

NP: { (<A> |<R>|<MQ>) *«N»4«K»*) 


NP:((«A»|«R»|«MQ») *<NS>+<K>*} 
NP: {<M>+} 


O£ A 表示 形容 词 ，R 表示 代词 ，MQ 表示 数量 词 ，M 表示 日 期 词 ，K 表示 后 级 。 具 体 请 
参见 ICTCLAS 汉语 词性 标注 集 。 


(4) 解析 语法 结构 ， 并 绘制 语法 结构 图 
首先 通过 RegexpParser 来 构造 语法 结构 解析 器 ， 然 后 ， 通 过 解析 器 对 象 的 parse 方法 解 
析 语 法 结构 ， 并 通过 draw 方法 绘图 。 


cp-nltk.RegexpParser(grammar) 
resultl-cp.parse(sentencestr[0]) 
resultl.draw()""" 


程序 12-18.py 运行 后 ， 首 先 输出 句子 分 制 结果 ， 如 下 所 示 。 然 后 输出 语法 结构 图 ， 如 
图 12-9 所 示 。 


据 / P 美国 / NS 华盛顿 / NS HB / A X / N F3 / N2/ MH /M317/MH /M 
报道 / v 
政府 / N 问 责 局 /N16/MH /M Ri / v 的/ UJ ix(? / MO 报告 /N 称 /Vv 


因为 / C 还 / D 需要 / V 进行 / V 大 规模 / B 的 / UJ 更 新 /DD 
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S 
MEM s E iiie 
据 P NP NP NP 报道 V 
p po ui 


Eu dicm 
美国 NS ”华盛顿 NS — 自由 ATEN 网 站 N 2M HM 17M HM 
图 12-9 语法 结构 图 


观察 图 12-9 所 示 的 语法 结构 图 ， 可 看 出 程序 12-18.py 识别 出 名 词 短 语 NP (比如 :“ 美 国 
华盛顿 ” )， 并 将 它们 单独 绘制 在 树 的 第 三 层 。 此 外 ， 树 的 第 一 层 是 S， 表 示 句 子 ， 第 二 层 是 
该 句 的 语法 结构 : P 表示 介词 ，NP 表示 名 词 短 语 ，V 表示 动词 。 


12.4.8 Web 文档 聚 类 


文档 聚 类 (Text Clustering) 主要 是 依据 著名 的 聚 类 假设 : 同类 文档 的 相似 度 较 大 ， 而 不 
同类 文档 的 相似 度 较 小 。 作 为 一 种 无 监督 的 机 器 学 习 方 法 ， 聚 类 由 于 不 需要 训练 过 程 ， 以 及 
不 需要 预先 对 文档 进行 手工 标注 类 别 ， 因 此 具有 一 定 的 灵活 性 和 较 高 的 自动 化 处 理 能 力 ， 已 
经 成 为 对 文本 信息 进行 有 效 地 组 织 、 摘 要 和 导航 的 一 种 重要 手段 。 

1. 重点 词 聚 类 

程序 12-19.py 演示 了 如 何 使 用 NLTK 通过 电影 评论 对 电影 进行 聚 类 。 对 于 评论 而 言 ， 重 
点 词 一 般 是 情感 类 及 相关 词汇 ， 本 例 将 重点 词汇 定义 为 名 词 、 形 容 词 、 语 气 词 及 叹 词 。 


d--coding:utf-8-- 
#code by myhaspl 


4$12-19.py 
from _ future . import unicode literals 
from . future _ import division 


import pylab 
import nltk 
import urllib 


import numpy 
import re 
import sys 


sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 


from jieba import posseg 


def cutstrpos(txt): 
# 分 词 + 词性 
cutstr = posseg.cut(txt) 
result-"" 
for word, flag in cutstr: 
result«-word-«"/"4flag-«' ' 
return result 
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def inittxtw(allwords): 
txtwords-í) 
for w in allwords: 
txtwords[w]-0 
return txtwords 


def txtfeatures (allwdt,tokenw): 
# 词 频 特征 提取 
txtfd-nltk.FregDist (tokenw) 
for key,val in sorted(txtfd.iteritems()): 
allwdt[key]-val 
return allwdt.values() 


# 根据 电影 评论 将 电影 聚 类 

urls-[(u" Jj K RE ji 3", "http://ent.163.com/16/0129/00/BEF5L97P00034R77 .html") , (u" JE A fi 
JE X ","http://ent.163.com/15/1230/15/BC3G5VQ700034R77 .htm1") , (u" 恶棍 天 使 ", "http://ent.163. 
com/15/1224/07/BBJ60V1H00034R77.html"), (u"-É J& JL ","http://ent.163.com/15/1224/00/ 
BBIED1QLO00034R77.html"), (u" d Æ ik ","http://ent.163.com/15/1218/03/BB3A312B00034R77. 
html1"), ("F 万 3k Æ £|","http://lent.163.com/15/1218/03/BB3ACSP700034R77.html"), (u" Æ 
球 大 M 7U","http:/lent.163.com/15/1217/15/BB211NTG00034R77.html"), (u" UL 4& 游戏 3( 下 ) 
","http://ent.163.com/15/1120/07/B8RKKR9C00034R77.html"), (u" JL Æ 4& 3E ","http:/lent.163. 
com/15/0930/01/84NN919N00034R77.html"), (u" Æ 能 Æ jJ ","http://lent.163.com/15/0508/06/ 
AP2T6CP400034R77.html"), (u" d Æ # A Ħ ","http://ent.163.com/15/0702/17/ATHL56DT00034R77 . 
html"), (u"3É [8 ","http://ent.163.com/15/0925/05/B4BA617600034R77.html"), (u"007: 幽灵 党 
", "http://ent.163.com/15/1113/08/889PJSGE00034R77 .htm1") , (u" 小 黄 人 大 了 眼 萌 ", "http://ent.163. 
com/15/0913/07/B3CI689C00034R77 .html")] 


allw=[] 
tokendocstr=[] 
i-0 
errorfilm-[] 
for (film,myurl) in urls: 
print "Aq ok koe ke eee ek ( "Lfilme" ) 核心 词 ck cec kk ck cce ke kk kk ck ck kk kon 
htmlsrc-urllib.urlopen(myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
pattern-re.compile(r'((class-"end-text"»)|(«br  /»«/p»«p»))(.*«style».*--»«/ 
p»)*(.«42) («/p»«/div»|«div id-)') 
match = pattern.findall(repr(htmlsrc)) 
matchstr-"" 
if match: 
mstrzmatch[0][4].encode('utf-8').decode("unicode-escape") 
matchstr«-mstr 
else: 
print film," 无 法 取得 评论 i7 
errorfilm.append(i) 
i+=1 


txtstr-matchstr.replace("«/p»","").replace("«p»","").replace("«span»", "").replace("«/ 
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span»","").replace(r'«b style-"mso-bidi-font-weight: normal"»','').replace(r'«/b»','') 


# 生成 nltk 格式 的 词性 单词 集 
posstr-cutstrpos (txtstr) 
strtag-[nltk.tag.str2tuple(word) for word in posstr.split()] 
cutstr-** 
for word,tag in strtag: 
# 只 处 理 名 词 、 形 容 词 、 语 气 词 、 叹 词 
if tag[0]ss"N* or tag[0]ss*A" or tag[0]-2"Y" or 七 有 可 [0 三 三 "及 
cutstr«-word«" " 
print cutstr 
tokendocstr.append(nltk.word tokenize(cutstr)) 


for docstr in tokendocstr: 
for w in docstr: 
allw.append(w) 
allw=set (allw) 


samplefeatures-[] 


for docstr in tokendocstr: 
allwdt-inittxtw(allw) 
docfeature-numpy.array(txtfeatures(allwdt,docstr)) 
samplefeatures.append(docfeature) 


txtclassfier-nltk.cluster.gaac.GAAClusterer (num clusters-5,normalise-True) 


txtclassfier.cluster(vectors-samplefeatures) 
i-0 
for data in samplefeatures: 

print urls[i][0]," 聚 类 编号 :" 

print txtclassfier.classify (data) 

i+=1 
#kmeans X3 
print u"------------- kmeans RÆ ------------.- " 
txtclassfier-nltk.cluster.kmeans.KMeansClusterer (num means-5,distance-nltk. 

cluster.util.euclidean distance) 

txtclassfier.cluster(samplefeatures) 
is0 
for data in samplefeatures: 

print urls[il[0]," 聚 类 编号 :" 

print txtclassfier.classify (data) 

i4-1 
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程序 12-19.py 中 有 以 下 关键 知识 点 。 
C1) 文本 特征 提取 
通过 提取 重点 词 在 文本 中 出 现 的 数量 作为 该 文本 的 特征 ， 代 码 如 下 所 示 : 
def txtfeatures(allwdt,tokenw): 
# 词 频 特 征 提取 
txtfd-nltk.FregDist (tokenw) 
for key,val in sorted(txtfd.iteritems()): 


allwdt[key]-val 
return allwdt.values() 


(2) S sing 
NN 表示 名 词 ，A 表示 形容 词 ，Y 表示 语气 词 ，E 表示 叹 词 ， 将 这 4 类 词 筛选 出 来 作为 评 
论 的 重点 词 ， 参 与 文本 特征 提取 计算 。 代 码 如 下 所 示 : 


for word,tag in strtag: 


* 只 处 理 名 词 、 形 容 词 、 语 气 词 、 叹 词 


if tagL0l]ss*N" or tag[O0]2-"A* or tag[0]-s"Y" or tag[0]s-"E": 
cutstr«-word-e" " 
(3) GAA 算法 


群 平均 聚 类 ， 简 称 GAA (The Group Average Agglomerative)， 核 心思 想 是 : 开始 以 每 一 个 
向 量 作 为 单个 群 ， 然 后 迭代 ， 将 有 最 近 的 质心 的 集 全 部 成 群 ， 这 一 过 程 持续 到 仅 有 一 个 群 ， 这 
种 合并 产生 了 树 状 图 。 纵 观 这 一 过 程 可 以 看 出 ,GAA 属于 层次 式 聚 类 方法 ， 它 的 基本 步骤 如 下 : 

1) 将 每 个 对 象 归 为 一 类 ， 共 得 到 N 类 ， 每 类 仅 包含 一 个 对 象 。 类 与 类 之 间 的 距离 就 是 
它们 所 包含 的 对 象 之 间 的 距离 。 

2 ) 找到 最 接近 的 两 个 类 并 合并 成 一 个 类 ， 于 是 类 的 总 数 少 了 一 个 。 

3) 重新 计算 新 的 类 与 所 有 旧 类 之 间 的 距离 。 

4) 重复 第 2 步 和 第 3 步 ， 直 到 最 后 合并 成 一 个 类 为 止 (此 类 包含 了 N 个 对 象 ) 。 

整个 聚 类 过 程 其 实 是 建立 了 GAA 树 (如 图 12-10 所 示 )。 关 键 是 如 何 判断 两 个 类 之 间 的 
相似 度 ， 对 于 文本 而 言 ， 一 般 使 用 余弦 距离 来 判断 相似 性 。 
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使 用 NLTK 进行 GAA 的 过 程 一 般 如 下 : 
1) 通过 nltk.clustergaac 的 GAAClusterer 函数 构造 GAA 对 象 ， 其 中 normalise 参数 为 


True 时 表示 使 用 余弦 相似 度 。 代 码 如 下 所 示 : 


txtclassfier-nltk.cluster.gaac.GAAClusterer (num clusters-5,normalise-True) 

2) 以 聚 类 样本 为 参数 调用 cluster 函数 进行 聚 类 。 代 码 如 下 所 示 : 

txtclassfier.cluster(vectors-samplefeatures) 

3) 通过 classify 函数 返回 聚 类 结果 。 代 码 如 下 所 示 : 

print txtclassfier.classify(data) 

(4) K 均值 算法 

K 均值 算法 以 欧式 距离 作为 相似 度 来 测度 ， 它 是 求 对 应 某 一 初始 聚 类 中 心 向 量 V 的 
最 优 分 类 ， 使 得 评价 指标 了 最 小 。 算 法 采用 误差 平方 和 准则 函数 作为 聚 类 准则 函数 ， 即 
认为 两 个 对 象 的 距离 越 近 ， 其 相似 度 就 越 大 ， 因 此 算法 把 产生 紧凑 且 独 立 的 入 作为 最 终 
目标 。 

该 算法 在 每 次 迭代 中 对 数据 集中 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 簇 中 心 的 距离 将 每 
个 对 象 重新 赋 给 最 近 的 簇 。 当 考察 完 所 有 的 数据 对 象 后， 一 次 迭代 运算 完成 ， 新 的 聚 类 
中 心 被 计算 出 来 。 如 果 在 一 次 迭代 前 后 ,评价 指标 了 的 值 没有 发 生变 化 ， 就 说 明 算 法 已 经 
VES 

算法 的 具体 过 程 如 下 : 

1) 从 个 文档 随机 选取 天 个 文档 作为 质心 。 

2 ) 对 剩余 的 每 个 文档 测量 其 到 每 个 质心 的 距离 ， 并 把 它 归 到 最 近 的 质心 的 类 。 

3 ) 重新 计算 已 经 得 到 的 各 个 类 的 质心 。 

4) 迭代 第 2 步 和 第 3 步 直 至 新 的 质心 与 原 质心 相等 或 小 于 指定 阀 值 ， 算 法 结束 。 

使 用 NLTK 进行 K 均值 算法 的 过 程 一 般 如 下 : 

1) 通过 nltk.clusterkmeans 的 KMeansClusterer 函数 构造 K 均值 聚 类 器 对 象 。 代 码 如 下 
所 示 : 

txtclassfier-nltk.cluster.kmeans.KMeansClusterer(num means-5,distance-nltk. 
cluster.util.euclidean distance) 


2) 以 聚 类 样本 为 参数 调用 cluster 函数 进行 聚 类 。 代 码 如 下 所 示 : 
txtclassfier.cluster(vectors-samplefeatures) 
3 ) 通过 classify 函数 返回 聚 类 结果 。 代 码 如 下 所 示 : 


print txtclassfier.classify (data) 


2. 关键 词 聚 类 
程序 12-20.py 演示 了 如 何 使 用 NLTK， 通 过 电影 评论 对 电影 进行 聚 类 。 与 12-19.py 不 同 
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的 是 ， 本 例 聚 类 的 依据 是 关键 词 ， 计 算 关 键 词 的 算法 为 TF/IDF 权重 算法 ， 取 权重 最 大 的 前 
30 个 词 作为 关键 词 。 代 码 如 下 所 示 : 


#--coding:utf-8-- 
#code by myhaspl 


#12-20. 


py 


from X future import unicode literals 


from future | import division 


import 
import 
import 


import 
import 


import 


import 


sys.path.append(". 


pylab 
nltk 
urllib 


numpy 
re 


sys 


jieba.analyse 


AA) 


pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 


from jieba import posseg 


def cutstrpos(txt): 
# 分 词 + 词性 


cutstr = posseg.cut(txt) 


result-"" 


for word, 


def inittxtw(allwords): 


flag in cutstr: 


result«-word-4"/"«flags' ' 
return result 


txtwords-(] 


for w in allwords: 
txtwords[w]-0 


return txtwords 


def txtfeatures(allwdt,tokenw): 
# 统计 词 频数 
txtfd-nltk.FreqDist (tokenw) 
for key,val in sorted(txtfd.iteritems()): 


allwdt[key]-val 
return allwdt.values() 


# 根据 电影 评论 将 电影 聚 类 
urls-[(u" 功夫 熊猫 3","http:Went.163.com/16/0129/00/BEE5L97P00034R77 .html"), (u" 唐人 街 
TEX ","http://ent.163.com/15/1230/15/BC3GSVQ700034R77 . html") , (u" 恶棍 天 使 ", "http://ent .163 . 
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com/15/1224/07/BBJ60V1H00034R77 .html"),(u" 老 炮 JL","http://ent.163.com/15/1224/00/ 
BBIED1QL00034R77.html"),(u" d Æ k","http://ent.163.com/15/1218/03/BB3A312B00034R77. 
html"),(u" F F ik 3B 5|","http://ent.163.com/15/1218/03/BB3ACSP700034R77.html"), (u" Æ 球 
大 HW 7","http://ent.163.com/15/1217/15/BB211NTG00034R77.html"), (u" JL R 3E 9X3 (P) 
","http://ent.163.com/15/1120/07/B8RKKR9C00034R77 . html") , (u" JL EJ 3É ", "http://ent.163. 
com/15/0930/01/B4NN919N00034R77.htm1"), (u" Æ f  J& ", "http://ent.163.com/15/0508/06/ 
AP2T6CP400034R77.html"), (u" 我 是 路 人 甲 ", "http://ent.163.com/15/0702/17/ATHL56DT00034R77. 
html"), (u" #A ","http://ent.163.com/15/0925/05/B4BA6IJ600034R77.html"), (u"007: 幽灵 党 
", "http://ent.163.com/15/1113/08/B89PJSGE00034R77 . html") , (u" 小 黄 人 大 眼 萌 "，, "http://ent.163. 
com/15/0913/07/B3CI689C00034R77 .htm1")] 


allw-[] 
tokendocstr-[] 
i-0 
errorfilm-[] 
for (film,myurl) in urls: 
print "Vn*X*xoxoekeeedee [4 "Lfilme" ) 关键 词 ekckckokockckokck kok ck kok ck ok ok k ck oko koko" 
htmlsrc-urllib.urlopen(myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
pattern-re.compile(r'((class-"end-text"»)|(«br /»«/p»«p»))(.*«style».*--»«/ 
p»)*(.42) («/p»«/div»|«div id-)') 
match = pattern.findall(repr(htmlsrc)) 
matchstr-"" 
if match: 
mstr-match[(0][4].encode('utf-8').decode("unicode-escape") 
matchstr4-mstr É 
else: 
print film," 无 法 取得 评论 1" 
errorfilm.append(i) 


l4-1 
txtstr-matchstr.replace("«/p»","").replace("«p»","").replace("«span»","").replace("«/ 
span-»","").replace(r'«b style-"mso-bidi-font-weight: normal"»','').replace(r'«/b»','') 


# 提取 前 30 位 TF/IDF 权重 最 大 的 关键 词 

topK = 30 

tags = jieba.analyse.extract tags(txtstr, topK-topK) 
cutstr-"  ".join(tags) 

print eutstr 

tokendocstr.append(nltk.word tokenize(cutstr)) 


for docstr in tokendocstr: 
for w in docstr: 
allw.append (w) 
allw=set (allw) 


samplefeatures-[] 
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for docstr in tokendocstr: 
allwdt-inittxtw(allw) 
docfeature-numpy.array(txtfeatures (allwdt,docstr)) 
samplefeatures.append(docfeature) 


txtclassfier-nltk.cluster.gaac.GAAClusterer (num clusters-5,normalise-True) 


txtclassfier.cluster(vectors-samplefeatures) 
i-0 
for data in samplefeatures: 
print urls[i][0]," 聚 类 编号 :" 
print txtclassfier.classify (data) 
i+=1 
#kmeans 聚 类 
print u"------------- kmeans X3 --—-------.--- " 
txtclassfier-nltk.cluster.kmeans.KMeansClusterer(num means-5,distance-nltk. 
cluster.util.euclidean distance) 
txtclassfier.cluster(samplefeatures) 
i-0 
for data in samplefeatures: 
print urls[i] [0]," 聚 类 编号 :" 
print txtclassfier.classify(data) 
i=l 


程序 12-20.py 的 核心 在 于 提取 关键 词 ， 本 例 基 于 TF/IDF 权重 ， 即 : 取 TF/IDF 权重 最 高 
的 前 30 个 词 作 为 关键 词 。 
TF-IDF 是 一 种 统计 方法 ， 用 以 评估 某 一 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 某 一 份 文 
件 的 重要 程度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 语 
料 库 中 出 现 的 频率 成 反比 下 降 。TF 指 词 频 ( Term Frequency), IDF 指 逆 向 文件 频率 ( Inverse 
Document Frequency), TF 的 意义 在 于 可 表示 词 条 t 在 文档 d 中 出 现 的 频率 ，IDF 的 意义 在 于 如 
果 包 含 词 条 t 的 文档 越 少 ， 也 就 是 mn 越 小 ，IDF 越 大 ， 则 说 明 词 条 t 具 有 很 好 的 类 别 区 分 能 力 。 
下 面 的 代码 片断 通过 调用 jieba 分 词组 件 的 analyse.extract tags 方法 来 分 析 TF/IDF 权重 : 
# 提取 前 30 位 TF/IDF 权重 最 大 的 关键 词 
topK = 30 
tags = jieba.analyse.extract tags(txtstr, topK-topKk) 
cutstr-"  ".join(tags)- 


print cutstr 
tokendocstr.append(nltk.word tokenize(cutstr)) 


程序 12-20.py Pi a HAREPEKA, REBARA R, NOEqUE 
同 者 为 观众 心目 中 的 同一 类 型 电影 。 运 行 结果 如 下 : 


ck ck cec ke ke ke e e e e e 《功夫 熊猫 3》 关键 词 eee eee dee ee 
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熊猫 ”功夫 ME A% 梦 工厂 影片 反派 动画 电影 修炼 师父 电影 搞笑 动画 角色 
残 豚 “前作 ”浣熊 “无 厘 头 “一 集 WB 气功 一 部 没有 包子 剧情 显得 武功 dé XE 以 及 


功夫 熊猫 3 聚 类 编号 : 
1 
唐人 街 探 案 聚 类 编号 : 
2 
功夫 熊猫 3 聚 类 编号 : 
4 
唐人 街 探 案 聚 类 编号 : 


12.5 ”小结 


现在 已 经 是 数字 时 代 了 ， 可 获得 的 和 需要 处 理 的 文本 数量 越 来 越 多 ， 而 文本 数据 与 其 
他 数据 不 同 ， 它 具有 非 结 构 化 的 特点 ， 这 对 文本 数据 的 分 类 与 自然 语言 的 处 理 提出 了 更 高 的 
要 求 。 

本 章 首 先 介绍 了 基于 余弦 相似 度 、 朴 素 贝 叶 斯 算法 的 文本 分 类 及 Web 文档 分 类 技术 ， 并 
详细 讲解 了 文本 预 处 理 技术 (中 文 分 词 、 停 用 词 处 理 等 )、 文 本 特征 提取 技术 等 内 容 。 然 后 
阐述 了 使 用 NLTK 工具 对 中 文 进行 自然 语言 处 理 的 技术 ,包括 分 词 与 词性 标注 、 词 汇 特征 指 
bs. Web 文档 分 析 、Web 文档 分 类 及 聚 类 、 文 本 语法 结构 分 析 等 内 容 。 


思考 题 


C1) 基于 余弦 相似 度 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 
(2) 基于 SVM 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 


OE 文本 样本 的 特征 组 可 以 定义 为 其 包含 的 词 条 在 某 类 别 中 出 现 的 先 验 概率 。 
(3 ) 基于 加 权 朴 素 贝 叶 斯 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 


m 可 以 以 新 闻 的 标题 为 关键 名 ， 将 标题 中 包含 的 词 赋予 较 大 的 权重 ， 将 权重 直接 乘 以 先 
验 概率 作为 标题 词 条 的 先 验 概 率 。 
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针对 本 书 第 1 版 ， 豆 办 有 网 友 的 评论 


我 在 “ 陌 陌 ”工作 的 时 候 ， 由 于 工作 关系 接触 了 本 书 。 起 初 是 当 作 工 具 书 来 阅读 的 ， 后 来 才 发 现 这 本 书 的 连贯 性 很 好 ， 

于 是 又 重新 读 了 一 遍 。 本 书 这 种 从 实战 的 角度 带 入 问题 ， 很 快 地 定位 问题 ， 而 且 举 一 反 三 地 由 书 中 的 例子 解决 实际 工作 中 的 
问题 。 机 器 学 习 就 是 需要 通过 实际 的 例子 让 你 的 机 器 更 “聪明 ”， 更 懂得 你 需要 什么 。 强 烈 推 荐 ! 

一 一 网 友 : tangmash 


我 从 事 数据 挖掘 工作 4 年 ， 过 去 使 用 SAS 进 行 数据 挖 掘 ， 由 于 本 职工 作 需 要 了 解 机 器 学 习 、Python 等 ， 而 《机 器 学 习 实 

践 指南 》 刚 好 都 有 所 涉及 。 这 本 书 真正 把 知识 点 与 思路 很 好 地 上 串联 了 起 来 ， 由 最 开始 介绍 什么 是 机 器 学 习 ， 如 何 搭建 相关 环 

境 ， 到 算法 的 介绍 以 及 代码 实现 ， 都 体现 作者 希望 读者 能 从 实践 中 快速 入 门 、 融 会 贯通 的 思想 。 这 本 书 起 到 了 最 核心 的 实践 
和 指南 作用 ， 值 得 一 读 。 期 待 作者 在 以 后 的 作品 中 能 带 给 读者 更 多 的 启发 。 

一 一 网 友 : Keven guo 


我 是 非 计算 机 专业 的 一 名 大 专 生 ， 本 书 非 常 适合 初学 者 ， 理 论 不 多 ， 偏 于 实战 。 一 方面 能 快速 提高 Python 技能 ， 另 一 方面 
也 能 快速 理解 机 器 学 习 。 通 过 本 书 ， 可 由 浅 入 深 、 逐 步 解决 在 机 器 学 习 中 遇 到 的 疑惑 。 在 实际 开发 中 ， 本 书 对 我 帮助 很 大 。 
一 一 网 友 : MG 


本 人 是 计算 神经 科学 专业 的 在 读 博士 ， 因 需要 快速 入 门 机 器 学 习 ， 一 个 偶然 的 机 会 看 到 了 《机 器 学 习 实践 指南 》 这 本 

P, 该 书 帮助 我 快速 理解 了 机 器 学 习 并 将 这 些 方法 应 用 于 自己 的 研究 领域 。 之 前 看 过 一 些 其 他 与 机 器 学 习 相 关 的 书籍 ， 基 本 

上 都 是 偏 理论 的 ， 没 有 太 多 实例 或 者 自己 动手 的 机 会 。 本 书包 含 从 基础 理论 的 介绍 到 最 后 问题 的 解决 方案 和 实践 思路 ， 并 提 

供 详细 的 源 代码 和 数据 。 读 者 可 以 边 看 书 边 上 机 ， 步 步 为 营 。 书 中 还 介绍 了 MLPY 等 一 些 实用 机 器 学 习 库 , 也 详细 介绍 了 像 神 

经 网 络 、SVM 等 技术 方法 。 总 之 ， 本 书 很 适合 像 我 这 样 需要 快速 入 门 机 器 学 习 的 读者 。 最 后 作者 还 建立 了 书 友 QQ 群 ， 让 书 
友 可 以 一 起 讨论 交流 ， 作 者 还 会 在 群 里 与 大 家 一 起 讨论 和 分 析 问 题 ， 气 氛 很 好 。 

一 一 网友 : Boite 


很 偶然 地 看 到 这 本 书 ， 正 好 自己 在 研究 机 器 学 习 ， 感 觉 机 器 学 习 涉 及 的 很 多 算法 是 很 难 懂 的 ， 然 而 本 书 让 我 获得 了 机 器 

学 习 方面 的 很 多 知识 并 解答 了 许多 疑惑 ， 果断 给 “满分 ”。 机 器 学 习 可 以 说 还 是 一 门 很 新 的 技术 ， 它 甚至 可 以 上 升 到 一 个 新 
学 科 ， 其 中 要 研究 的 东西 很 多 。 本 书 侧重 于 实践 和 应 用 ， 用 于 机 器 学 习 启 蒙 是 再 好 不 过 的 了 。 

一 一 网友 : skyworthfly 


我 是 深圳 市 芥末 金融 信息 服务 公司 的 一 位 技术 员工 ， 由 于 项 目 需求 ， 在 China-pub 上 看 到 本 书 。 个 人 觉得 本 书 是 一 本 非常 
注重 实践 的 书 ， 比 较 适合 初学 者 和 想 快 速 应 用 的 开发 人 员 。 书 中 的 示例 比较 切合 实际 。 个 人 认为 作者 在 举例 方面 很 用 心 ， 能 
将 难 懂 的 机 器 学 习 原 理 用 简单 的 代码 快速 地 表达 和 和 应 用 。 

一 一 网友: john_deng 


上 架 指导 : 计算 机 /机 器 学 习 
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